SuperCLUEチームは、DeepSeek V4シリーズの中国大型モデルの評価結果を発表した。 DeepSeek-V4-Pro は、その総合的なパフォーマンスにより国内で 1 位にランクされました。、Flash版が僅差で2位に続き、国産オープンソースモデルがまた躍進しています。この評価は、数学的推論、科学的推論、コード生成、エージェントのタスク計画、指示に従い、錯覚制御の 6 つの側面をカバーします。 Pro バージョンのスコアは 70.98 ポイント、Flash バージョンのスコアは 68.82 ポイントでした。いずれのスコアも他の国産モデルを大きく上回った。


DeepSeek V4 シリーズは、新しいアテンション メカニズムを採用しています。すべてのバージョンは、計算能力とメモリ使用量を削減しながら、何百万もの長いコンテキストをサポートします。国産チップを使用すると、全体的な効率が高くなります。

前世代の V3.2 と比較して、どちらのバージョンも包括的な改善が行われています。 Pro バージョンのエージェント能力は 20 ポイント以上向上し、数学的推論は 10 ポイント近く向上し、コマンド追従性は 12 ポイント近く向上し、イリュージョン コントロールも大幅に最適化されました。


Flash版では効率的な推論を維持しつつ、エージェント推論や数理推論が大幅に向上し、コストパフォーマンスに優れています。


Pro バージョン (15 元/100 万トークン) は、高性能、より安定したイリュージョン制御に焦点を当てており、複雑なタスクやプロフェッショナルなシーンに適しています。 Flash バージョンは高速かつ安価です。 API の価格は 100 万トークンあたりわずか 1.25 元であり、毎日の使用にとってよりコスト効率が高くなります。

また、コード生成や複雑な命令実行の点で海外上位機種との間にはまだ差があることも評価で指摘された。全体として、DeepSeek V4 はバランスの取れた機能と手頃な価格により、中国で最初の階層としての地位を確立しており、日常の事務作業、開発と作成、および長いテキストの処理に高品質な選択肢となっています。