4月下旬まで残りわずかとなったDeepSeek V4大型モデルの発売は人々の心を動かしました。昨日、同社の研究者は、V4 リリースの前兆と見なされている DeepGEMM オペレーター ライブラリを突然更新しました。しかし、明らかに外部からの反応を予想していて、アップデート後に追加説明を加えていたのですが、このアップデートは DeepGEMM 開発にのみ関連しており、内部モデルのリリースとは何の関係もないことを強調しておきます。つまり、V4 がリリースされるという意味ではありませんので、あまり考えないでください。

しかし、この発言が多ければ多いほど、DeepGEMM アップデートの波には多くのハイライトがあり、V4 大型モデルに関連するものではないため、DeepSeek V4 に興味を持つ人が増えます。

FP8_FP4 ハイブリッド オペレーターのサポートと NVIDIA Blackwell のサポートの最適化に加えて、このアップデートには主に Mega MoE と HyperConnection が含まれています。 Mega MoE は、MoE アーキテクチャに大幅なアップグレードをもたらす可能性があります。

Mega MoE には多くの利点があり、インターネット上には多くの説明があります。Gemini の分析によると、V4 でアクティブ化された専門家の数は V3 の 256 人よりも大幅に増加し、数千人になる可能性があります。これにより、柔軟性を維持し、コンピューティング能力とビデオ メモリに対する過度の要求を回避しながら、V4 のパフォーマンスが大幅に向上することは明らかです。

さらに重要なことに、DeepGEMM の今回のアップデートは、V4 大型モデルのパラメータ量も示唆しています。ネットユーザーらによると、単層MoEは約2537億円だという。それでも60層であればV4は1.6Tの大型モデルになる可能性が高く、悪くても48層の1.25Tの大型モデルになるでしょう。

V4 のパラメーターが 1 兆個であるという以前の噂と比較すると、1.6 兆個ということは以前の予想よりも 60% も高いことを意味しており、そのパフォーマンスは非常に期待に値します。

1.6Tが実現できない場合、パラメータ量は現行V3の6,700億個に比べて2倍の1.25Tとなる。まだまだ本番が楽しみです。結局のところ、Mega MoE テクノロジーが何千人もの専門家を再び活性化できれば、それは間違いなく MoE アーキテクチャの大規模モデルの開発における変革とマイルストーンとなる出来事となるでしょう。