テキサス州アビリーンのほこりっぽい大草原地帯で、OpenAIとオラクルのデータセンター請負業者であるクルーソーのハードウェアエンジニアは、史上最も高価なAIスーパーコンピューターで複数のガスタービンユニットを安定して稼働させるために、何日も残業した。

ガスタービンユニットは、Oracle と OpenAI がテキサス州アビリーンに建設した Stargate AI データセンターの隣に設置されています。
ガスタービンユニットは、Oracle と OpenAI がテキサス州アビリーンに建設した Stargate AI データセンターの隣に設置されています。

このプロジェクトに詳しい多くの関係者、常駐エンジニア、電力網の専門家は、このプロジェクトが OpenAI Stargate コンピューティング電力インフラストラクチャ プロジェクトの一部であり、全体的な実装の困難さと資本投資が当初の予想をはるかに超えていることを明らかにしました。

アビリーン基地は長い間、世界的な AI データセンター建設のベンチマークとみなされてきました。 Crusoe の顧客である Oracle はここに OpenAI 用のサーバーを導入しており、少なくとも数百メガワットの電力を消費しています。同社はこの夏、新しい建物にさらに多くのチップを導入する予定で、総電力負荷は最大 1.2 ギガワットとなり、サンフランシスコ市全体の照明ニーズをサポートするのに十分です。

しかし、最初の問題は無停電電源を確保することです。関係者らによると、冷却システムの故障やタービンユニットの異常、テキサス州送電網規制局が導入する新たな送電網変動制御規制など複数の問題により、クルーソーは設備、人材、資金に対する複数のリスクを回避するために段階的に操業を停止しなければならなかった。

プロジェクト現場でのさまざまな運用上の問題に加えて、すべての AI インフラストラクチャ メーカーは制御不能なコストに直面しています。数週間前、クルーソーのCEOであるチェイス・ロックミラー氏は、スタンフォード大学でのゲスト講演で、1ギガワットのデータセンター用の「主要電化プラント」の建設コストが192億ドルにも達し、これには主要な建築資材、機械および電気設備、サポートするガス発電所、およびすべての人件費が含まれると明らかにした。

この数字は、2、3 年前の同じ仕様のプロジェクトの見積もりと比較して急激に増加しています。AI コンピューティング ブームの下で、請負業者の技術賃金は通常 30% 増加し、人件費は総投資額の 4 分の 1 近くを占めています。 「業界における技術人材の獲得競争は、かつてないほど熾烈になっている」とロックミラー氏は語った。

他のハードウェアをサポートする機器のコストも高騰しています。同氏は学生たちに、1ギガワットのガス火力発電所のコストは過去数年でほぼ3倍になり、最大30億ドルに達したと語った。セントルイス連邦準備銀行のデータによると、変圧器と開閉装置の価格は 2020 年以来 80% 上昇しています。1 GW のデータセンターに必要なチップとサーバーをサポートする機器の調達コストは、さらに約 400 億米ドルになります。

現時点では、Crusoe、Oracle、OpenAI、その他のパートナーのコスト分担計画は明らかにされていません。予算超過や建設遅延が発生した場合、関連する法的責任主体について明確な結論は出ていない。クルーソーの広報担当者は、同社の予算はさまざまな緊急事態に対処するためにリスク準備金を確保していると答えた。

非常に明らかなことが 1 つあります。それは、世界のデータセンター建設サイクルが一般的に長期化しており、土地使用承認サイクルの長期化、中核設備の不足、労働力不足という 3 つの要因により、進捗が遅れ続けているということです。 JPモルガンのエコノミストは先月発表した報告書で、当初2027年までに稼働予定だったデータセンターの60%以上がまだ建設に着手しておらず、さらに7%のプロジェクトスケジュールが遅れており、業界拡大のペースが鈍化する可能性があることを衛星画像が示していると述べた。

アビリーン基地でのクルーソーのトラブルシューティング作業は、ギガワット規模のハイパースケール データ センターの建設にずさんな余地は許されないという業界全体への警鐘を鳴らしました。一歩間違えばチップの過熱や損傷、タービンブレードやドライブシャフトの破損、建設作業員の感電による負傷や怪我、送電網を支える設備の全焼などにつながる可能性があります。

クルーソー CEO チェイス・ロックミラー氏
クルーソー CEO チェイス・ロックミラー氏

電源のボトルネックや新たな規制上の制約などの複数の問題も、OpenAI や Anthropic などの AI 企業が、新設のデータセンターから十分なコンピューティング能力を獲得できず、期待される速度で新技術を反復できないと報告している主な理由でもあります。

Crusoe は設立して 8 年になります。初期の頃、同社は仮想通貨鉱山の運営に廃棄エネルギーに依存していました。 2022年にはAIインフラトラックに完全変貌する。同社のプライベート・エクイティ評価額は7か月前に100億米ドルを超えており、最新のニュースによると、プレIPOラウンドの資金調達額は3,000億〜4,000億米ドルの範囲になると予想されています。 Crusoeと協力したことのある企業幹部らは、同社の経営陣が産業建設の効率を大幅に加速し、プロジェクトの実施と監督におけるさまざまな問題を柔軟に解決したと、同社の経営陣を肯定的に評価している。

Crusoeは公式に声明を発表し、「AIコンピューティング負荷の電力需要特性は、電力業界における従来のバックアップ電源の設計適応ロジックとは根本的に異なる。これは業界全体が克服しなければならない主要なエンジニアリング問題である。当社が顧客に提供したプロジェクトは、建設速度と実装規模の点で業界の前例を打ち立てており、これを非常に誇りに思っている」と述べた。

AI データセンター分野のパイオニアとして、クルーソー プロジェクトによって暴露されたさまざまな隠れた危険は、業界全体にとって事前に地雷を除去することに相当します。テスラが以前に xAI (現在は SpaceX に統合) データセンターでの電力パルス ショックを解決するためにエネルギー貯蔵電池を導入したのと同様です。

別の地元テキサスのインフラ製造業者は、クルーソーは究極の建設スピードと引き換えに、あえて迅速に試行錯誤し、ソリューションを反復したものの、高い投資コストを犠牲にしたとコメントした。 Abileneプロジェクトに詳しい元OpenAIエンジニアがこれを認めた。プロジェクト内部関係者は、基地の初期のバックアップ電源ソリューションには突然の電圧変化や電力振動に対する耐性が不十分であり、チームは複数のバージョンの設計を変更する必要があったことを明らかにしました。

これらのガスタービンはデータセンターのバックアップ電源としてのみ使用されるため、基地とテキサス州の公共電力網の間の幹線接続には影響を与えません。プロジェクト パートナーである Lancium は、敷地内変電所の建設を担当します。建設時期に詳しい関係者らによると、変電所プロジェクトの進捗状況は標準通りか予定よりも進んでおり、OpenAIは今夏に最大1.2GWの外部送電網を利用できることが確実になっているという。

ただし、グリッドから十分な電力が供給されても、OpenAI と Oracle がすぐにフル稼働できるわけではありません。エンジニアはサーバーチップベーキングマシンのテストを完了すると同時に、電源と冷却システムの設計を最適化し、夏までにコンピューティングクラスター全体のデバッグを完了する必要があります。このプロジェクトに携わった元エンジニアは、今年初めにチップサーバーの過熱と溶融(熱暴走故障)を防ぐために使用されていた冷却ユニットが低温環境で故障し、計算能力がほぼ丸一日中断されたことを明らかにした。

オフグリッドのリスク

AI コンピューティング負荷の消費電力はミリ秒単位で大きく変動します。関連する研究では、不適切な管理と制御は周波数の不一致(高調波歪み)を引き起こし、家庭用電化製品や変電所の機器に損傷を与え、データセンター自体のバッテリーの消耗を加速させる可能性があると指摘しています。電力網の異常が検出されると、データセンターは自らを保護するために積極的に電力網から切断されます。 2024 年と 2025 年に、バージニア州の「データセンター回廊」にある数十のコンピューター室が 2 度オフラインになり、地域停電を引き起こしそうになりました。

2024 年の夏から秋にかけて、テキサス州西部の仮想通貨マイニング ファームでは、ファームウェア プログラムの欠陥により、電力網に激しい電力振動が発生し続けました。メーカーがファームウェアを書き換えたところ、問題は解決されました。

テキサス州の送電網運営者はこれについて非常に警戒している。電力網会議追跡機関である GridMonitor の統計によると、今年だけで、テキサス州電力信頼性評議会 (ERCOT) のさまざまな会議で「電力振動」という用語が 80 回言及されました。同庁は新たな歪み制御規制を導入し、データセンターに高精度の電力バッファリングと電圧安定化システムの設置を義務付けている。主流のソリューションはエネルギー貯蔵電池であり、メーカーは小型発電機セット、コンデンサ、燃料電池などの代替ソリューションも同時に開発しています。

導入されるもう1つの新しい規制では、データセンターが送電網の障害を乗り越えることができ、異常が発生した場合に送電網から直接切断されないことが求められます。良いニュースは、新世代パークの全体的な設計には、より効率的なエネルギー貯蔵バッファーバッテリーが装備されており、サポートする AI ハードウェアも適応および最適化されていることです。 NVIDIA のエネルギー システム アーキテクトである Sean James 氏は、「NVIDIA は、電力パルスをバッファする能力を向上させるために、サーバーの内蔵回路の最適化を続けています。」と述べています。

AI コンピューティング能力が電力網に影響を与えることを防ぐことは、北米では統一された監視レベルにまで高まっています。 North American Electric Reliability Corporation (NERC) は 5 月 4 日に異例のレベル 3 の警告を発し、電力網の計画担当者に対し、電力網が AI データセンターなどの新しい超大規模コンピューティング負荷を伝送できることを証明するために、8 月 3 日までに中核となる整流措置を実施するよう求めました。

NERCのジム・ロブ最高経営責任者(CEO)は、「シリコンバレーは古くも新しいものにも迅速な試行錯誤が必要だと常に信じてきたが、この論理は電力網には当てはまらない。社会運営のためのすべてのインフラは安定した電力供給に依存している。データセンターと暗号化された鉱山の運用モードは電力網の全体的な信頼性を確保しなければならない」と述べた。

オラクルの広報担当者は「送電網の安定性の確保は、オラクルのハイパースケール・データセンターの中核となる設計原則だ。同社はランシウムと深く協力し、送電網の安全な運用を確保するために地元の電力会社と調整してきた」と応じた。