関係者によると、中国の人工知能企業DeepSeekは来週、最新世代の大規模言語モデルV4をリリースする予定だという。これは、1 年以上前に前回の大ヒット製品を発売して以来、同社にとって初めてのメジャー アップデートです。これは、中国にとって人工知能の分野で米国の競合他社に挑戦し続けるための重要なステップとみなされている。

事情に詳しい関係者2人によると、DeepSeekは杭州に本社があり、今回発売されたV4は画像、ビデオ、テキスト生成機能を備えたマルチモーダルモデルとなる。この件に詳しい複数の関係者によると、DeepSeekは中国の現地AIチップメーカーであるファーウェイおよびカンブリアンと協力して、両当事者の最新世代のチップ製品に適応するようにV4をカスタマイズおよび最適化し、それによってコンピューティング能力レベルで緊密な連携を形成したという。この動きは、中国のテクノロジー企業がエヌビディアのハイエンドAIチップへの依存からの脱却を加速していることを示す新たな兆候とみられているが、同チップは現在、中国の技術的台頭を抑制することを目的とした米国の輸出規制と関連措置の対象となっている。
このリリースのタイミングも非常に象徴的です。 DeepSeek は、今年は 3 月 4 日に開幕する中国の年次全国「Two Sessions」の前夜に V4 を立ち上げる予定です。この注目度の高い政治会議は同社に重要な露出機会を提供し、「国家 AI チャンピオン」としてのイメージをさらに強固にする可能性があります。
これは、2025 年 1 月の R1 推論モデルのリリース以来、DeepSeek の最初のメジャー バージョンの反復です。当時、同社は、シリコン バレーの大手企業が使用するものよりもはるかに低い計算能力スケールで、主要なモデルと同等の機能を持つシステムをトレーニングしたと主張していました。このニュースはかつて米国のテクノロジー株市場に衝撃を与えた。一部のアナリストは、これを中国が人工知能分野で急速に追いつき、さらには状況を書き換えたことを示す「スプートニクの瞬間」と表現した。それ以来、DeepSeek は完全な新しいアーキテクチャよりも増分アップデートを開始し、これにより Alibaba や Moonshot などの国内競合他社に、低コストのオープンソースの中国モデル市場でさらなる成長の余地を与えることにもなりました。
この件に詳しい複数の関係者は、DeepSeekによるV4の特に国産AIチップ向けの最適化は、現地チップに対する市場の需要を高め、モデル推論段階(つまり、訓練されたモデルを使用して答えを生成するプロセス)でHuaweiやCambrianなどの中国メーカーへの移行を加速し、NvidiaやAMDチップへの依存度を減らすのに役立つだろうと予測している。ロイターは以前、ディープシークとファーウェイおよびカンブリアンとの協力の進捗状況を報じていた。状況に詳しい別の関係者は、DeepSeek は V4 の最適化に関して Nvidia と協力していないと述べた。
しかし、モデル トレーニングの分野では、特に大量のコンピューティング パワーを必要とする事前トレーニング段階では、NVIDIA が依然として優位に立っており、その GPU は依然として業界標準です。フィナンシャル・タイムズは以前、DeepSeekがファーウェイのハードウェアでこの初期トレーニングを完了しようとしたが、その過程で技術的な問題に遭遇したと報じた。同社は昨年 R1 モデルをリリースしたとき、NVIDIA チップ上でモデルをより効率的にトレーニングおよび実行する方法を説明する詳細な技術レポートも発行しました。関連するエンジニアリング手法は広く注目され、賞賛されています。一部の内部関係者は、DeepSeek が「推論モデル」を構築するためのトレーニング方法を共有することで、実際に他の研究室に再利用可能なエンジニアリング パスが提供され、後者が限られたコンピューティング能力の下でモデル推論能力を向上させるのに役立つと考えています。
いわゆる「推論モデル」とは、複雑な問題を解決するために特に最適化されたモデル パラダイムを指します。その中心的なアイデアは、問題を段階的に解決できる複数のサブ問題に分割し、複数段階の推論を通じて最終的な結論を導き出すことです。 DeepSeek計画に近い関係者らによると、同社は主要な改善点に焦点を当てた短い技術説明文書を含むV4を来週リリースし、モデルアーキテクチャとトレーニング方法を体系的に開示するためのより詳細な技術レポートを約1カ月後に発表する予定であると明らかにした。
同時に、知的財産とモデルの「借用」をめぐる論争も激化している。つい今週初め、アメリカのAI企業Anthropicは、DeepSeekと他の2つの中国のAI研究所が自社のモデルに対していわゆる「蒸留攻撃」を行っていると非難した。つまり、より強力なモデルの出力を使用して小規模なモデルをトレーニングし、後者が同レベルのコンピューティングリソースを直接使用せずに前者のパフォーマンスに近づけることができるというものだ。ファーウェイ、ディープシーク、カンブリアンはコメント要請に応じていない。