人工知能の波によりデータセンターの電力需要が高まる中、イリノイ大学アーバナシャンペーン校の研究チームは、新しい三次元プリント純銅製冷却プレート技術を開発した。これにより、データセンターの冷却用電力消費が現在の総電力消費量の約30%から約1.1%に大幅に削減されることが期待される。研究者らは、この技術が超大規模データセンターに完全に適用されれば、全体的な冷却関連のエネルギー消費量が 90% 以上削減され、現在の熱工学が達成できる効率限界に近づくと推定しています。

国際エネルギー機関によると、世界のデータセンターの電力消費量は 2025 年に 485 テラワット時に達すると予想されており、そのうち約 30% (すでにスウェーデンの年間電力消費量を超えている値) が施設自体の冷却に使用されています。同時に、生成人工知能の急速な発展により、業界では太陽エネルギーをより直接的に供給するために宇宙にデータセンターを建設することさえ検討されています。さらに皮肉なことに、これらの膨大な電力消費の約 3 分の 1 はコンピューティング自体とは何の関係もなく、チップによって熱に変換される電気エネルギーを「移動」させるために使用されます。

Nvidia の GB200 チップを例にとると、チップ 1 個の消費電力は 1,200 ワットに達し、1 日の消費電力は約 28.8 キロワット時で、これは平均的なアメリカの家庭の 1 日の平均消費電力に近い値です。避けられないジュール加熱効果により、これらの 1200 ワットはほぼ均等に加熱電力に変換され、理論的にはわずか 1 時間でグラス 50 杯以上の水を加熱するのに十分な量となります。これらのチップが現在のように何千、あるいは何十万ものラックに高密度に積み重ねられ、冷却介入がなければ、xAI の Colossus 1 データセンターにある 220,000 個の GPU と 300 メガワットの電力だけで、約 785,000 平方フィートの空間を 1 時間でマグマよりも高温の摂氏約 1,200 度まで加熱するのに十分です。データセンターの運用において、冷却は避けられない、さらには死活問題となっていることがわかります。

この論文の筆頭著者で機械エンジニアのBehnood Bazmi氏は、「冷却が現在のチップ設計のボトルネックとなっている。コンピューティング設計と製造能力の間のギャップを埋めることで、私たちのソリューションは、よりエネルギー効率の高いチップやさまざまな電子機器の液体冷却のための新しい道を提供する」と指摘した。長い間、データセンターは主に空冷に依存してきました。つまり、CPU と GPU に金属製ヒートシンクを取り付け、薄いフィンによって熱交換面積を拡大し、高出力ファンによる強制対流でそれを補っていました。巨大な空気処理システムを駆動するには、この方法自体が大量の電力を消費します。また、新世代の AI アクセラレータ チップの熱流密度の急激な増加に直面して、従来の空冷ではますます不十分になりつつあります。

したがって、業界は直接チップ液体冷却ソリューションへの移行を加速しています。つまり、プロセッサーの上に金属製の「コールド プレート」を設置し、内部の小さなチャネルを通して冷却剤の流れを導き、チップの熱を迅速に放散します。従来のコールドプレートは古くから市販されていますが、内部のフィンや流路の設計は加工のしやすさを優先したものが一般的です。幾何学的形状は直方体や円筒形が多く、材質はアルミニウム合金やステンレス鋼が主です。究極の熱交換性能と流動抵抗の制御を両立させることは困難です。

イリノイ大学チームのイノベーションは、材料とフィン構造という 2 つの重要な側面に集中しています。研究者らは、トポロジー最適化手法を使用し、数学的最適化アルゴリズムを導入してコールドプレートの内部微細構造を再設計し、従来の角柱と円筒形状からより複雑でギザギザのシャープな三次元形状に進化させ、流路抵抗を考慮しながら伝熱面積と熱性能を最大化しました。これらの非常に複雑な構造を従来のプロセスで経済的に処理することはほとんど不可能であるため、チームは高度な電気化学積層造形 (ECAM) を利用して、層ごとに目的の形状を直接生成することに目を向けました。素材選定においては、熱伝導性に優れる一方で、従来の3Dプリントでは微細な造形が極めて困難であった純銅を大胆に採用した。

この論文の責任著者である機械エンジニアのネナド・ミリコビッチ氏によると、ECAM技術は純銅を30~50ミクロンという微細な形状に加工することができ、これは人間の髪の毛の直径よりもさらに小さいという。実験結果によると、市販の従来型コールド プレートと比較して、このトポロジーに最適化された純銅製コールド プレートは、システムの圧力損失を最大 68% 削減しながら、液冷条件下で冷却性能を最大約 32% 向上させることができます。圧力損失の減少は、単位時間当たりの冷媒循環を促進するために必要なポンプ動力が大幅に減少することを意味します。この 2 つを組み合わせることで、全体的なエネルギー消費量が大幅に節約されます。

研究チームはさらに、データセンター全体のレベルからモデリング分析を実施しました。空冷が依然として主流である現在のシナリオでは、設備容量 1 GW のデータセンターは、インフラストラクチャの冷却だけで約 550 MW の追加電力を必要とする可能性があります。彼らが提案した最適化された液体冷却ソリューションを採用した後、同じ規模の施設の冷却電力消費量は約 11 メガワットまで削減されると予想されます。つまり、大規模なAIハードウェアから発生する極度の熱を効果的に放熱しつつ、冷却にかかるエネルギー消費量を現状の約30~35%から約1.1%に圧縮し、全体で95%以上削減することが見込まれます。

これらのモデル予測を実際のハイパースケール展開で再現できれば、データセンターのエネルギー効率に対する影響は革命的になるでしょう。研究チームの推定によると、このシステムはデータセンターが約 1.011 の電力使用効率 (PUE) を達成するのに役立ちます。これは、電力網から入力されるほぼすべてのワットの電力が、冷却、送電および配電の損失、または照明などの補助手段で消費されるのではなく、コンピューティングに直接使用されることを意味します。比較のために、世界の最先端の超大規模データセンターの PUE のほとんどは 1.1 ~ 1.3 ですが、理論上の「完璧な」データセンター PUE は 1.0、つまり、インフラストラクチャの冷却とサポートにエネルギーが無駄にされません。

もちろん、研究チームは、データセンター全体のエネルギー消費に関する現在の数値はまだモデル推論の段階にあり、実際のギガワットレベルのデータセンターの現場での測定結果に基づいていないことも認めた。それでも、このテクノロジーが大規模導入で予想どおりパフォーマンスを維持できれば、現在の AI ブームの背後で見落とされている最大の隠れたエネルギー消費の 1 つであるデータセンターの冷却を大幅に削減できる可能性があります。研究者らは、設計の最適化と高度な製造プロセスを組み合わせるというこのアイデアは、データセンターに限定されるものではなく、より広範囲の電子機器や、効率的な熱管理を必要とする他のエンジニアリング分野にも拡張できると考えています。