NVIDIA が新しい Groq 3 LPU を作成: 500MB SRAM キャッシュ、HBM4

CPU、GPU、NPU、VPU、DPU、TPU、PPU、IPU...その後、XPU ファミリに新しいメンバーが追加されました。NVIDIAは、言語処理装置である「Language Processing Unit」を意味する「LPU」を新たに開発した。

それは専用のAI推論高速化チップは、NVIDIA が昨年買収した Groq をベースとしており、低レイテンシのデコードとインタラクティブな推論に特化し、トレーニングと一般的なコンピューティングに焦点を当てた GPU を補完し、トレーニングから実装まで AI のプロセス全体を共同でサポートします。

NVIDIA Rubin Vera プラットフォームには、これまでに 6 つの異なるチップが含まれていました。Rubin GPU アクセラレータ、Vera CPU プロセッサ、Bluefield 4 DPU データ処理ユニット、ConnectX 9 スマートネットワークカード、NVLink 6 スケールアップスイッチ、Spectrum-X スケールアウトスイッチ。

今回、Groq 3 LPU がこのファミリーに加わりました。

Groq 3 LPU は 980 億個のトランジスタを統合し、最大 500MB の SRAM (スタティックランダムアクセスメモリ) のシンプルな構造を備えています。、つまり、CPU と GPU で使用されるキャッシュユニットです。

容量は 288GB HBM4 よりもはるかに小さいですが、HBM4 の 22TB/s の 7 倍をはるかに上回る 150TB/s という驚異的な帯域幅を提供できます。

ご存知のとおり、AI デコード操作は帯域幅を非常に消費しますが、Groq 3 は帯域幅を完全に満たすことができ、遅延ははるかに低くなります。

同時に、Groq 3 LPU の FP8 高精度演算能力は 1.2PFlops (毎秒 1,200 兆演算) に達します。

これに基づいて、NVIDIA は、256 個の Groq 3 LPU、総キャッシュ容量 128GB SRAM、および 40PB/s という驚異的な帯域幅を備えた Groq 3 LPX ラックを構築しました。

ラックは、640TB/秒の帯域幅を持つ専用の垂直拡張インターフェイスを介して接続されており、全体的な AI 推論コンピューティング能力は、315PFlops（毎秒31.5億回）。

Groq LPX は Rubin Vera プラットフォームのコプロセッサとして位置付けられており、AI モデルの各層での各トークンの処理を高速化し、デコードパフォーマンスを向上させることができます。

また、AI の次のフロンティアとみなされ、インタラクティブなパフォーマンスを維持しながら数兆のパラメータモデルの推論と数百万のトークンコンテキストウィンドウの処理を必要とするマルチエージェントシステムにも対応しています。

Rubin GPU と Groq LPU を組み合わせると、現在のスループットは 1 秒あたり 100 トークンになります。1 秒あたり 1500 トークン以上のプッシュしたがって、AI エージェントの対話シナリオを完全にサポートします。