CPU、GPU、NPU、VPU、DPU、TPU、PPU、IPU...その後、XPU ファミリに新しいメンバーが追加されました。NVIDIAは、言語処理装置である「Language Processing Unit」を意味する「LPU」を新たに開発した。

それは専用のAI推論高速化チップは、NVIDIA が昨年買収した Groq をベースとしており、低レイテンシのデコードとインタラクティブな推論に特化し、トレーニングと一般的なコンピューティングに焦点を当てた GPU を補完し、トレーニングから実装まで AI のプロセス全体を共同でサポートします。

NVIDIA Rubin Vera プラットフォームには、これまでに 6 つの異なるチップが含まれていました。Rubin GPU アクセラレータ、Vera CPU プロセッサ、Bluefield 4 DPU データ処理ユニット、ConnectX 9 スマート ネットワーク カード、NVLink 6 スケールアップ スイッチ、Spectrum-X スケールアウト スイッチ。

今回、Groq 3 LPU がこのファミリーに加わりました。

Groq 3 LPU は 980 億個のトランジスタを統合し、最大 500MB の SRAM (スタティック ランダム アクセス メモリ) のシンプルな構造を備えています。、つまり、CPU と GPU で使用されるキャッシュ ユニットです。

容量は 288GB HBM4 よりもはるかに小さいですが、HBM4 の 22TB/s の 7 倍をはるかに上回る 150TB/s という驚異的な帯域幅を提供できます。

ご存知のとおり、AI デコード操作は帯域幅を非常に消費しますが、Groq 3 は帯域幅を完全に満たすことができ、遅延ははるかに低くなります。

同時に、Groq 3 LPU の FP8 高精度演算能力は 1.2PFlops (毎秒 1,200 兆演算) に達します。

これに基づいて、NVIDIA は、256 個の Groq 3 LPU、総キャッシュ容量 128GB SRAM、および 40PB/s という驚異的な帯域幅を備えた Groq 3 LPX ラックを構築しました。

ラックは、640TB/秒の帯域幅を持つ専用の垂直拡張インターフェイスを介して接続されており、全体的な AI 推論コンピューティング能力は、315PFlops(毎秒31.5億回)。

Groq LPX は Rubin Vera プラットフォームのコプロセッサとして位置付けられており、AI モデルの各層での各トークンの処理を高速化し、デコードパフォーマンスを向上させることができます。

また、AI の次のフロンティアとみなされ、インタラクティブなパフォーマンスを維持しながら数兆のパラメータ モデルの推論と数百万のトークン コンテキスト ウィンドウの処理を必要とするマルチ エージェント システムにも対応しています。

Rubin GPU と Groq LPU を組み合わせると、現在のスループットは 1 秒あたり 100 トークンになります。1 秒あたり 1500 トークン以上のプッシュしたがって、AI エージェントの対話シナリオを完全にサポートします。