NVIDIA の研究者は、モデル自体を変更することなく、会話履歴を追跡するための大規模言語モデル (LLM) のメモリ使用量を最大 20 分の 1 に削減できる新テクノロジー KVTC (KV Cache Transformationcoding) を発表しました。このブレークスルーにより、大規模な言語モデルで長時間の会話を推論する際のメモリ不足の問題が解決されると期待されています。これにより、企業が AI を使用するためのハードウェア コストが大幅に削減されると同時に、モデルが初めて応答を生成するまでの時間が最大 8 倍短縮されます。

簡単に言えば、KVTC テクノロジーの中核は、大規模な言語モデルを圧縮する背後にある KV キャッシュです。これは、AI モデルの「短期記憶」に相当します。。 KV キャッシュは、学生がメモを取るものと考えることができます。モデルが対話を処理するときに、重要な情報 (つまり、キーと値) を書き留めます。次回応答を生成する際に、対話全体を一から再計算する必要がなくなり、応答速度が大幅に向上します。

しかし、問題は、会話が長くなるにつれて「メモ」のサイズが大きくなり、数 GB にまで拡大し、大量の GPU メモリを占有するため、モデルの速度が低下し、処理能力が制限されることです。

NVIDIA の上級ディープラーニング エンジニアである Adrian Lancucki 氏は、「大規模な言語モデルを推論する場合、パフォーマンスのボトルネックは計算能力ではなく、GPU メモリにあることがよくあります。」と述べています。これらの一時的に使用されていない KV キャッシュは常に貴重な GPU リソースを占有し、システムはそれらを CPU メモリまたはハードディスクに転送する必要があります。これにより、データ通信の負担が増大するだけでなく、新たな遅延問題が発生する可能性があります。これらの追加コストは、最終的には企業の使用料に反映されます。

既存の圧縮技術と比較して、KVTC には明らかな制限はありません。おなじみの JPEG 画像圧縮の考え方を採用しており、「主成分分析、適応量子化、エントロピー符号化」という 3 つの簡単なステップを通じて効率的な圧縮を実現できます。

さらに便利なのは、このテクノロジーではモデルのコア設定やコードを変更する必要がないことです。これは「非侵入型」設計であり、企業は迅速に導入できます。その主な利点は、モデルのリアルタイム応答に影響を与えることなく、KV キャッシュの「関連性の高いデータ」特性をキャプチャし、重要な情報を保持しながら冗長データを削除し、ブロック単位でレイヤーごとに解凍できることです。

複数回のテストにより、KVTC のパフォーマンスは、既存の主流の方法をはるかに上回ります。パラメータが 15 億から 700 億の範囲のさまざまなモデル (Llama 3 シリーズ、R1-Qwen 2.5 などを含む) では、メモリを 20 回圧縮しても、モデルの精度はほとんど影響を受けず、損失は 1% 未満であり、圧縮しない場合とほぼ同じです。;ただし、従来の圧縮方法で 5 回しか圧縮できない場合、精度が大幅に低下します。

加えて、H100 GPU で 8,000 のトークン プロンプトを処理する場合、KVTC を使用しない場合は最初の応答を生成するのに 3 秒かかりますが、KVTC を使用した後はわずか 380 ミリ秒で、完全に 8 倍高速になります。

KVTC は、プログラミング アシスタントや反復エージェント推論など、長い対話や複数ラウンドの対話シナリオにより適していることに注意してください。対話が短い場合、その圧縮値を発揮するのは困難です。

現在、NVIDIA はこのテクノロジーを Dynamo フレームワークの KV ブロック マネージャーに統合し、vLLM などの主流のオープンソース推論エンジンと互換性を持たせることを計画しています。

業界関係者らは、大規模な言語モデルが処理できる会話の長さが増加し続けるにつれて、KVTC などの標準化された圧縮技術が将来ビデオ圧縮と同じくらい普及し、AI のより広範な適用に役立つ可能性があると考えています。