Microsoft Azure の NVIDIA "Blackwell" GB200 サーバーは、冷却にスペースの 2/3 を使用

火曜日遅く、Microsoft Azure はソーシャルメディアプラットフォームで興味深い画像を共有しました

Microsoft は Nvidia の最大の顧客の 1 つであり、同社は多くの場合、初めて製品を受け取り、それらをクラウドコンピューティングや企業インフラストラクチャに統合します。 Nvidia でさえ、将来の製品、特に現在キャンセルされた NVL36x2 システムのような製品を設計する際には、Microsoft などの企業からのフィードバックに耳を傾ける予定です。以下の画像は、計算領域をシステム全体の 3 分の 1 に大まかに分割し、システムの 3 分の 2 を閉ループ液体冷却に充てる大規模なクラスターを示しています。

システム全体は Infiniband ネットワークを使用します。これは、パケット転送遅延が低いため、GPU アクセラレーションシステムの標準です。システムの詳細は少し不明瞭ですが、統合された閉ループ液体冷却システムにより、GPU ラックを 1U フォームファクターで実現でき、密度が向上していることがわかります。

これらのシステムはより広範な Microsoft Azure データセンターに設置されることを考えると、システムは保守が容易で冷却が容易である必要があります。 Microsoft データセンターでは処理できる電力と熱の出力が限られているため、この種のシステムは通常、Microsoft が設計した内部仕様を満たすように設計されています。もちろん、NVIDIA の NVL72 など、よりコンピューティング密度の高いシステムもありますが、ハイパースケーラーは通常、データセンターの仕様に適合する他のカスタムソリューションを選択する必要があります。

最後に、Microsoft は、11 月に開催される Microsoft Ignite カンファレンスで、GB200 を利用した AI システムについてさらに詳しい情報が得られると期待できると述べました。