最近Googleが正式に明らかにした同社の主力 AI モデル Gemini は、商業化を目的とした大規模な蒸留攻撃に苦しんでいます。繰り返しの質問によりチャットボットが内部メカニズムを漏洩するよう誘導されています。。 Googleによると、攻撃者はGeminiの内部推論ロジックと意思決定メカニズムをリバースエンジニアリングしてモデルの複製を実現したり、独自のAIシステムを強化したりする目的で、慎重に設計されたプロンプトワードを体系的かつ繰り返しモデルに繰り返し(1回の攻撃で10万回以上)送信したという。

これらの攻撃は主に「商業目的の攻撃者」によって実行されます。Googleは、その背後にいるのは主に競争上の優位性を獲得したいAI民間企業か研究機関であると判断した。同社の広報担当者は、攻撃の発信元は世界の複数の地域から来ていると述べたが、それ以上の情報は明らかにしなかった。

蒸留攻撃 (知識蒸留とも呼ばれる) は、もともとは大規模な「教師モデル」の知識を小規模な「生徒モデル」に移行することでモデルの軽量化を実現するモデル圧縮技術であることが報告されています。

攻撃者は、体系的かつ構造化された大量の質問を通じてさまざまなシナリオでモデルの応答を収集し、応答の内容、遅延、信頼度などの微妙な違いを分析し、Gemini の意思決定境界と推論パス マップを構築します。最後に、収集された応答データは、Gemini のコア機能を再現する独自の「学生モデル」をトレーニングするために使用されます。

Googleは、このような蒸留攻撃は知的財産の窃盗であると述べたが、大手メーカーは蒸留攻撃を特定してブロックできるメカニズムを導入している。しかし、主流の大規模モデル サービスは誰でも利用できるため、依然として本質的に脆弱です。