先週の 2 月 24 日、DeepSeek は、今週はオープンソース週間とし、5 つのソフトウェア ライブラリを連続してオープンソース化すると発表しました。本日午前 9 時 30 分頃、DeepSeek は、このオープンソース週間の最初のコード ライブラリである FlashMLA (Hopper GPU に最適化された効率的な MLA デコード コア) をオープンソース化したと発表しました。


GitHub では、このプロジェクトはオープンソース化されてから 6 時間で 5,000 を超える Star コレクションと 188 のフォーク (作成されたコピー) を受け取りました。 DeepSeek のオープンソース FlashMLA と、Star collection および Fork データの急速な成長について聞いた後、香港上場企業の CTO は Sina Technology との通信で次のように述べました。

AIハードウェアの研究と投資に焦点を当てている別の投資家は、FlashMLAをレビューした後、このオープンソースは国内GPUにとって大きな利点であると新浪科技に語った。 「これまでの国産 GPU カードは非常に貧弱でした。現在では、FlashMLA が提供する最適化のアイデアと方法論を使用して、国産カードのパフォーマンスを大幅に向上させることができます。たとえアーキテクチャが異なっていても、後から国産カードの推論パフォーマンスが向上するのは当然のことです。」


DeepSeek の公式紹介によると、FlashMLA は HopperGPU の効果的な MLA デコード カーネルに基づいており、可変長シーケンス向けに最適化できます。

DeepSeek の技術ルート全体において、MLA (Multiple Latent Attendance Mechanism) は、同社がリリースした V2 および V3 モデルの最もコアなテクノロジーの 1 つです。これは、コンピューティング効率とメモリ使用量におけるパフォーマンスのボトルネックを解決するために使用され、モデルのパフォーマンスを維持または向上させながら、モデルのトレーニングと推論の効率を大幅に向上させることができます。

以前、中国工程院の学者で清華大学コンピューターサイエンス学部の教授である鄭偉民氏は、新浪科技との通信の中で、「DeepSeekが自社開発したMLAアーキテクチャは、自社のモデルトレーニングコストを削減する上で重要な役割を果たした」と述べた。同氏は、「MLA はアテンション演算子を変換することで KV を圧縮します。キャッシュ サイズにより、同じ容量でより多くの KVCache を保存できるようになります。このアーキテクチャは、DeepSeek-V3 モデルの FFN 層の変換と組み合わせることで、非常に大きな疎 MoE 層を実現します。これが、DeepSeek のトレーニング コストが低い最も重要な理由になります。」と指摘しました。

今回、DeepSeek は MLA デコード コアである FlashMLA を直接開きます。これは、DeepSeek がコア MLA の基礎となるコードを無料で直接開くことを意味します。これにより、大部分の開発グループは FlashMLA コード ベースを直接再利用して、より少ない GPU サーバーで同じタスクを完了でき、推論コストを直接削減できます。これは、DeepSeek のオープンソース機能に基づいて根本的な最適化と AI アプリケーション開発を実行したいと考えているより多くのグループにとって、間違いなく大きな利点です。

興味深いのは、今回DeepSeekが公開したMLAデコードコアは主にHopper GPU向けに最適化されているということだ。一般に、Hopper GPU は、NVIDIA の Hopper アーキテクチャに基づいて開発された H シリーズ GPU 製品を指します。現在、NVIDIA は、H100、H800、H20 など、このシリーズのチップを多数リリースしています。

DeepSeek によると、ベンチマーク パフォーマンスの観点から、FlashMLA は NVIDIA H800SXM5 GPU 上で 3000GB/s のメモリ速度と 580TFLOPS の計算上限を達成できます。


公開情報によると、米国の輸出管理規制に従って、H800 の帯域幅制限は 600GB/秒に設定されており、これは一部の主力製品よりも低く設定されています。これは、FlashMLA による最適化後、H800 のメモリ帯域幅使用率がさらに改善されるか、H800 GPU の理論上の上限を超えることが期待され、究極のメモリ アクセスに達し、開発コミュニティが NVIDIA H シリーズ チップの能力を完全に「絞り出し」、より少ないチップでより強力なモデル パフォーマンスを達成し、GPU の価値を最大化できるようになります。

AI ハードウェアの研究と投資に注力している投資家は、FlashMLA を閲覧した後、「FlashMLA は、LLM を H800 上でより高速かつ効率的に実行できる最適化ソリューションです。これは、特に高性能 AI タスクに適しています。その核心は、大規模な言語モデルのデコード プロセスを高速化し、モデルの応答速度とスループットを向上させることです。これは、リアルタイム生成タスク (チャットボットなど) にとって非常に重要です。これにより、大規模言語モデルの機能とユーザー エクスペリエンスが大幅に向上します。」モデルを使用すると、速度が大幅に向上します。」

FlashMLA は HopperGPU に最適化されたコード ライブラリですが、国産 GPU にとっては、このオープンソースも有益です。 FlashMLA をレビューした後、上記の投資家は、国内の GPU にとって、このオープンソースは大きな利点であると述べました。 「これまでの国産 GPU カードは非常に貧弱でした。現在では、FlashMLA が提供する最適化のアイデアと方法論を使用して、国産カードのパフォーマンスを大幅に向上させることができます。たとえアーキテクチャが異なっていても、後から国産カードの推論パフォーマンスが向上するのは当然のことです。」