NVIDIA の新世代 AI コンピューティング プラットフォームの Vera Rubin 時代が正式に始まりました。これは世界最速の AI プラットフォームとして知られています。これは、テストと検証のために多くのトップ クラウド サービス プロバイダーに提供されており、大規模モデルとエージェントティック AI トレーニングの展開の次の段階への道を切り開いています。

レポートによると、Vera Rubin プラットフォームは量産段階に入り、完成したシステムの最初のバッチが、Oracle や CoreWeave などの企業を含む主要な AI クラウド ベンダーのコンピュータ ルームに納入されました。これに先立ち、NVIDIA は先月、Vera CPU の最初のバッチを多数の大手 AI 企業に納入し、この新しいプラットフォームのエコロジーの基礎を築きました。
Oracle Cloud Infrastructureの執行副社長であるMahesh Thiagarajan氏は、Vera Rubin NVL72ラック・システムの物理写真をソーシャル・プラットフォームで初めて公開し、72個のRubin GPUと36個のVera CPUで構成されるこの巨大なラック・クラスタを示しました。 AI ワークロード向けの現在のトップ GPU と CPU の組み合わせとして正式に位置づけており、Grace Blackwell に次ぐ、Nvidia の AI 製品ラインにおけるもう 1 つのマイルストーン プラットフォームになることを目指しています。


Thiagarajan 氏は、Oracle が Vera Rubin NVL72 システムをクラウドに導入し、検証テストを実施した最初のクラウドプロバイダーの 1 つであると述べました。両社は緊密に連携して、大規模なクラウド環境で新世代の高速コンピューティング機能を企業顧客に提供していきます。現場の写真から判断すると、NVL72 キャビネットはサイズが大きく、配線と冷却構造が複雑で、超大規模データセンター向けの設計方向性が強調されています。
Oracle に加えて、クラウド コンピューティング企業 CoreWeave も、最初の Vera Rubin NVL72 システムの設置完了を発表し、展開のために輸送車両からコンピュータ ルームにマシン全体が降ろされる完全なビデオを公開しました。画面では、1 つのキャビネットの設置に 3 ~ 4 人のエンジニアの協力作業が必要であることが示されています。これは、体積と重量の点でシステムの「データセンターレベル」の仕様をある程度反映しています。また、将来的には、AI データセンターに同様のキャビネットが数百、さらには数千に導入される可能性があることも示唆しています。
CoreWeave はまた、Vera Rubin NVL72 を導入した最初のクラウド サービス プロバイダーの 1 つであるだけでなく、ソフトウェアとハードウェアのフルスタックの共同デバッグと検証を初めて完了したことも強調しました。この目的のために、同社は、それぞれ Valvey と Racky という名前の独自のソフトウェア定義液体冷却システムと統合キャビネット制御ソリューションを作成しました。これらは、キャビネット Vera Rubin プラットフォーム全体の液体冷却管理と統合スケジューリングに使用され、「CoreWeave Mission Control」を通じてキャビネット クラスター レベルでの運用監視を実現します。
NVIDIA CEO のジェンスン・ファン氏が提唱した「AI は 5 層のケーキ」というアーキテクチャの観点では、Vera Rubin NVL72 はハードウェアの 1 層にすぎません。その背後には、電源、冷却、相互接続、ネットワークなどの高度なインフラストラクチャと、長年にわたって構築されたソフトウェア スタックのサポートも依存しています。 AI ワークロード用の CUDA と CUDA-X エコシステムを中核として、NVIDIA はソフトウェアとハードウェアを統合しているため、競合メーカーが環境の成熟度や普及の面で正面から競争することが困難になっています。
レポートによると、パフォーマンスの面では、Mix of Experts (MoE) モデルのトレーニング シナリオにおいて、Vera Rubin プラットフォームは GPU の数の 4 分の 1 のみを使用して前世代の Blackwell システムと同じトレーニング速度を達成でき、推論段階のトークンあたりのコストは Blackwell の 10 分の 1 に削減できることが示されています。これは、工場レベルで大規模モデルと Agentic AI を展開する際に、Vera Rubin がコンピューティング電力密度とエネルギー効率において大きな利点をもたらし、クラウド ベンダーがコストを管理し規模を拡大するための重要なサポートを提供できることを意味します。
現在、Vera Rubin プラットフォームは完全な量産に入っており、NVIDIA は今年の第 3 四半期に、顧客向けの運用実行タスクの最初のバッチを正式に開始する予定です。 Oracle や CoreWeave などの大手クラウド サービス プロバイダーが率先して立ち上げと検証を完了しているため、業界では一般に、Vera Rubin が間もなく新世代の AI データセンター インフラストラクチャのコア コンポーネントの 1 つとなり、「Agentic AI ファクトリー」やより複雑な大規模モデル アプリケーションの実装が促進されると予想しています。