DeepSeek V4 と米国のトップ AI とのギャップを理解するための 1 枚の写真: 8 か月の遅れ

Kuai Technology は 5 月 3 日、DeepSeek V4 シリーズの大型モデルが 4 月 24 日に正式にリリースされたと報告しました。昨年の DeepSeek R1 アップデートから 15 か月が経過しました。 V4のパフォーマンスも国内外で議論を巻き起こしており、米国人も大きな懸念を抱いている。

DeepSeek V4 の機能を評価するために多くのテストが行われてきました。外交問題評議会の上級研究員3人による以前の調査では、米国のトップモデルより約7カ月遅れていることが示された。

現在、国立標準技術研究所 (NIST) の子会社である人工知能標準イノベーションセンター (CAISI) も DeepSeek V4 を評価するようになりました。彼らの結論は、DeepSeek V4 は米国より約 8 か月遅れており、これは以前の差と同様です。

AI能力の評価結果では、DeepSeek V4のスコアは800点だったが、現在最も強いのはGPT-5.5で1200点以上、GPT-5.4やOpus 4.6も1000点を超えている。

DeepSeek V4 の全体的なパフォーマンスは、8 か月前の GPT-5 と同様です。しかし、DeepSeek関係者は以前、リリースレポートでGPT-5.4に類似していると信じていた。

しかし、CAISIは、DeepSeek V4がこれまで評価した中国で最も強力な大規模AIモデルであり、ネットワーク、ソフトウェアエンジニアリング、自然科学、抽象推論、数学の5分野における9つのテストで非常に優れていることも認めた。

さらに重要なのは、DeepSeek V4 はコスト効率が高いことです。米国で最もコスト効率の高いモデルである GPT-5.4 mini 大型モデルと比較しても、DeepSeek V4 は 7 つのベンチマークテストのうち 4 つでテストコストが高く、41% ～ 53% 高い値を示しています。