東部時間火曜日、Google はシリコンバレーのテクノロジー界で爆発的に普及した最新のアルゴリズム、超効率的な AI メモリ圧縮アルゴリズム TurboQuant をリリースしました。 Google は、このアルゴリズムにより、精度を損なうことなく、大規模な言語モデルのキャッシュ メモリ フットプリントを少なくとも 6 倍削減し、パフォーマンスを 8 倍向上させることができると主張しています。本質的に、これにより人工知能はより少ないメモリ空間を占有しながらより多くの情報を記憶できるようになります。

このアルゴリズムが発表されるとすぐに、米国の半導体株は下落した。 Googleとウォール街もまた、多くのテクノロジー大手を悩ませている現在のメモリチップ不足の惨事はここで終わることができるのか、という激しい議論を始めている。
ターボクアントとは何ですか?
まず、この TurboQuant アルゴリズムとは一体何なのかについて話しましょう。
Google の公式 Web サイトの紹介によると、TurboQuant は精度を損なうことなくモデル サイズを大幅に削減できる圧縮方式であるため、キー値キャッシュ (KV キャッシュ) 圧縮やベクトル検索のサポートに非常に適しています。これは 2 つの重要な手順を通じて行われます。
1. 高品質圧縮 (PolarQuant 方式): TurboQuant は、まずデータ ベクトルをランダムに回転します。この賢い手順により、データのジオメトリが簡素化され、標準の高品質量子化器をベクトルの各部分に個別に適用することが簡単になります。最初のステージでは、圧縮能力の大部分 (ビットの大部分) を利用して、元のベクトルの主な概念と特徴を保存します。
2. 隠れたエラーを除去する: TurboQuant は、残りの少量 (わずか 1 ビット) の圧縮能力を使用して、第 1 段階で残った小さなエラーに QJL アルゴリズムを適用します。 QJL ステージは数学的エラー チェッカーとして機能し、バイアスを排除し、より正確な注意スコアをもたらします。
簡単に言うと、TurboQuant は基本的に AI モデルのコア構造を変更せずに AI モデルを圧縮し、前処理や特定のキャリブレーション データを必要としません。
Googleは、オープンソースのロングコンテキストモデル(GemmaとMistral)を使用して、LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Evalを含む複数のベンチマークテストでTurboQuant、PolarQuant、KIVIの3つのアルゴリズムを厳密に評価したと主張している。
実験データによると、TurboQuant はキーバリュー (KV) メモリの使用量を最小限に抑えながら、内積歪みと再現率の点で最適なスコアリング パフォーマンスを実現します。

上の図は、質問応答、コード生成、要約などのさまざまなタスクにおける TurboQuant、PolarQuant、および KIVI ベースライン アルゴリズムの総合的なパフォーマンス スコアを示しています。
Google は、TurboQuant がキーと値のメモリ サイズを少なくとも 6 分の 1 に削減しながら、すべてのベンチマークで完璧なダウンストリーム結果を達成したと主張しています。
彼らは来月のICLR 2026カンファレンスで研究を発表し、そのような圧縮を達成するための2つの方法、量子化方法PolarQuantとQJLと呼ばれるトレーニングおよび最適化方法を実証する予定です。
Google は DeepSeek の瞬間を迎えていますか?
このGoogleのアルゴリズムは、HBOのテレビシリーズ「シリコンバレー」(2014年から2019年放送)に登場する架空の新興企業パイドパイパーを思い出させる人も多いだろう。 TV シリーズでは、Pied Piper は、ほぼロスレス圧縮でファイル サイズを大幅に削減できる画期的な圧縮アルゴリズムも開発しました。

実際、Google Research Institute がリリースした TurboQuant テクノロジーも、品質を損なうことなく究極の圧縮を達成することに取り組んでいますが、人工知能システムの中核的なボトルネックに適用されています。
Cloudflareの最高経営責任者(CEO)Matthew Princeらは、これをGoogleのDeepSeekの瞬間とさえ呼び、DeepSeekと同様に、結果の面で競争力を維持しながら、極めて高い効率の向上を通じてAIの運用コストを大幅に削減できると期待されていると考えている。

「AI推論には、速度、メモリ使用量、消費電力、利用率の点で最適化の余地がまだたくさんある」と同氏はXに関する記事で述べた。
メモリチップの需要は冷めるのでしょうか?
Googleのアルゴリズムのリリースは、メモリチップの世界的な不足がますます深刻になっている中で行われた。
世界の大手企業がAIインフラの構築に力を入れる中、メモリ需要は増え続けており、供給不足を短期的に解消するのは難しいだろう。大手テクノロジー企業の開発者は、メモリ不足を克服する、または少なくとも対処するためのさまざまな革新的な方法を考案しており、現在テクノロジー業界の人々の間では、Google の TurboQuant がメモリ需要を冷却するための持続可能なソリューションであると考えられています。
AI インフラストラクチャの構築に取り組むテクノロジー大手にとって、この期待は当然良いことです。しかし、メモリチップメーカーの場合は、結果が異なる可能性があります。
メモリ需要が冷え込む可能性があるとの期待の影響を受け、米国のメモリチップセクターは東部時間水曜日の取引開始直後に一斉に下落した。サンディスクは6.5%下落、マイクロン・テクノロジーは4%下落、ウェスタンデジタルは4%以上下落し、シーゲイト・テクノロジーは5%以上下落した。

サンディスク株は水曜日の取引序盤で急落した
木曜日のアジア市場では、本稿執筆時点でSKハイニックスが4.42%下落し、サムスンが3.02%下落した。
フュートゥラム・エクイティ・リサーチのシェイ・ボロア氏は次のように主張する。
「ロングコンテキストAI推論がワークロードごとに必要とするメモリが大幅に削減される可能性があるため、市場はこれがメモリ株にとって潜在的な逆風になると見ている。」
ダモ氏は反対の見解を提唱
しかし、ウォール街の巨人の一部は反対の見解を表明している。
たとえば、Lynx Equity Strategiesのアナリスト、KC Rajkumar氏は、TurboQuantのテクノロジーはメディアが説明するほど「破壊的」ではない可能性があると示唆しました。
同氏は、Googleのいわゆる「8倍のパフォーマンス向上」は、古い32ビットモデルとの比較に基づいていると述べた。ただし、現在の推論モデルでは 4 ビットの定量化データが広く使用されているため、パフォーマンスの向上はそれほど大げさなものではありません。
さらにモルガン・スタンレーは、Google TurboQuantテクノロジーは推論段階のキー値キャッシュにのみ作用し、モデルの重みが占めるHBMには影響せず、トレーニングタスクとは何の関係もないとも指摘した。
したがって、これは合計ストレージ要件や合計ハードウェアが 6 分の 1 に削減されるのではなく、効率の向上による単一 GPU のスループットの増加です。同じハードウェアで 4 倍から 8 倍の長いコンテキストをサポートしたり、メモリ オーバーフローを引き起こすことなくバッチ サイズの大幅な増加をサポートしたりできます。
さらに重要なことは、モルガン・スタンレーがさらに「ジェボンズのパラドックス」を引用して、メモリ需要は冷めないという判断を説明していることだ。
ジェボンズのパラドックスは経済学の重要な概念であり、技術の進歩と資源消費の間の直感に反する関係を指します。その定義は、技術の進歩により効率が向上しても、資源の消費量は減らないだけでなく増加する、というものです。たとえば、ワット社の改良された蒸気エンジンにより、石炭をより効率的に燃焼できるようになりましたが、その結果、石炭の需要が急増しました。
モルガン・スタンレーは、TurboQuant が 1 つのクエリのサービス コストを大幅に削減することで、クラウド内の高価なクラスターでのみ実行できるモデルをローカルに移行でき、AI の大規模導入の敷居を効果的に下げ、全体の需要がさらに高まる可能性があると考えています。
実際、Cloudflare CEO の Matthew Prince らが言及した DeepSeek は、Jevons のパラドックスの最も鮮明な例です。DeepSeek が昨年初めにリリースされたとき、市場は AI ハードウェアの需要が冷めるのではないかと心配していました。しかし実際には、効率の向上によりAIアプリケーションのさらなる普及が進み、AIハードウェアの需要も再び加熱しています。