国防総省は、AI企業が機密データ_5iter.comでモデルをトレーニングできるようにする計画

MIT Technology Review によると、米国国防総省は大きな転換を計画しています。生成型人工知能企業向けに機密性の高いトレーニング環境を構築し、機密の軍事情報データに基づいて大規模モデルの軍事バージョンをトレーニングできるようにします。これは、もともと機密環境で「読み取り」と「質問に答える」だけだったモデルが、将来的には機密データをトレーニング資料として直接使用し、それによって機密情報をモデル自体に「書き込む」可能性があることを意味します。

すでに、Anthropic の Claude などのいくつかの生成 AI モデルが機密環境に導入され、質問に答えたり、イランをターゲットにしたものなどの分析を支援したりしています。ただし、これらのモデルは現在、既存の機能に基づいて機密情報を処理するだけであり、モデル自体のトレーニングや更新にデータを再利用することはありません。機密データでのトレーニングが許可されれば、このモデルは特定の軍事任務の実行においてより正確かつ効率的になることが期待されますが、前例のないセキュリティリスクも引き起こすことになります。

匿名の米国防当局者は、軍のカスタムモデルを機密データに基づいてトレーニングすることで、特定の任務におけるパフォーマンスと信頼性が大幅に向上することが期待されると述べた。この計画は、米軍内でより強力なAIモデルに対する需要が高まる中で出された。国防総省は、そのモデルを機密環境で実行することでOpenAIおよびマスク氏のxAIと合意に達し、イランとの紛争の激化に対応して米軍を「AIファーストの戦闘部隊」に変えることを目的とした新たな人工知能戦略を推進している。本稿執筆時点では、国防総省はこの訓練計画について正式にコメントしていない。

関連する動作モードに詳しい2人の関係者によると、上記のトレーニングは機密プロジェクト向けに認定されたデータセンターで実施され、同じ安全な環境で特定のバージョンのAIモデルが機密データとペアリングされるという。国防当局者によると、データの所有権は米国国防総省にあるものの、まれに、関連する担当者が適切なセキュリティ許可を持っていれば、AI企業の従業員も機密データへのアクセスを許可される場合があるという。実際に機密データに触れる前に、国防総省はまず商用衛星画像などの非機密データでテストし、トレーニングされたモデルの精度と有効性の実際の改善を評価する予定だ。

米軍は長い間、ドローンや偵察機によって収集された画像やビデオの物体認識を行うために旧世代のコンピュータービジョンモデルを使用しており、政府契約を通じて企業にそのようなデータのアルゴリズムを訓練するよう委託してきた。近年では、Anthropic社が立ち上げたClaude Govのように、多言語対応と安全な環境での展開を重視した、政府シナリオに特化した大規模言語モデルやチャットボット版も続々と登場している。しかし、国防当局者の今回の声明により、大規模な言語モデルを開発するOpenAIやxAIなどの企業が、機密データに基づいて政府がカスタマイズしたモデルを直接トレーニングする可能性があることが明確に明らかになったのは初めてである。

GoogleとOpenAIの元AI政策責任者であり、現在は戦略国際問題研究所（CSIS）傘下のワドワニAIセンター所長であるアーロク・メータ氏は、機密環境で単に「読んで答える」ことと比べて、機密データを真に使用してモデルをトレーニングすることは新たなリスクをもたらすと指摘した。同氏は、最大の問題は、モデルのトレーニングによって吸収された機密情報が、将来別のユーザーによってクエリまたは呼び出されたときに「再浮上」する可能性があることだと考えています。これは、複数のサービス間でモデルのセットを共有する場合、またはセキュリティレベルやインテリジェンスニーズが異なるサービス間でモデルのセットを共有する場合に特に危険です。

たとえば、モデルが秘密工作員の身元など、人間の非常に機密な情報にアクセスできる場合、そのモデルがアクセス権のない軍の別の部門で使用されたときに、その情報が誤って軍の別の部門に「漏洩」する可能性があるとメータ氏は述べた。これは諜報機関や最前線の人員に生死のリスクをもたらすだけでなく、特に同じモデルが複数の部隊で共有されている場合には、完全に防ぐことは技術的に困難です。対照的に、軍内で機密情報を「ロック」し、オープンなインターネットやAI企業への流出を避けることは比較的容易だと同氏は考えている。

現在、米国政府はいくつかの関連インフラを確立している。たとえば、セキュリティ会社パランティアは、情報を AI 企業に渡すことなく機密事項に関する質問と回答に答えることができる政府向けセキュリティシステムを構築するための大規模な契約を複数受けている。これらのシステムでは、データは管理された環境に限定されている一方で、当局は機密コンテンツについてモデルに質問することができます。ただし、同じセキュリティアーキテクチャを推論や質問応答だけでなくトレーニングにも適用することは、依然として技術上および管理上の新たな課題です。

今年1月、ピート・ヘグセス国防長官は、防衛システム全体へのさらなるAI機能の導入を加速するよう促すメモを発表し、この分野における国防総省の競争的レイアウトを推進した。生成AIは、潜在的な目標をランク付けし、優先攻撃の提案を与えるなど、実際の戦闘で使用されています。契約書の作成や報告書の整理などの管理業務にも活用されています。防衛部門の観点から見ると、もともと人間のアナリストによって実行されていた多くのタスクは、将来的にはより強力な AI モデルに依存する可能性がありますが、これは大量の機密データをモデルに公開する必要があることも意味します。

メータ氏は、軍はAIに、上級分析官のように画像の中の極めて微妙な手がかりを特定したり、新たに取得した情報と過去の情報の間の複雑な関係を作成したりするなど、経験に大きく依存する微妙な判断を学習させたいのかもしれないと述べた。この目的を達成するために、諜報機関の膨大な多言語テキスト、音声、画像、ビデオデータがトレーニング資料のソースとなる可能性があります。しかし同氏はまた、国防総省には特定の能力を秘密にしたいという強いインセンティブがあり、この分野における米国の技術的限界を他国に正確に理解されることを望んでいないため、どの特定の任務に機密データに関する訓練が必要かを外の世界に説明するのは難しいとも強調した。

外の世界の目から見ると、国防総省の措置は最前線のニーズに応えるだけでなく、リスクの高いテクノロジーへの賭けでもある。ひとたび機密情報が大規模モデルに深く組み込まれれば、軍は従来のシステムをはるかに上回る自動分析と意思決定支援機能を獲得することになる。ただし、モデルの過剰な「メモリ」、偶発的な漏洩、アクセス境界の曖昧さなど、新たなセキュリティリスクにも直面する必要があります。現在、米国の国防機関は、高度に隔離された安全なデータセンター、厳格なアクセス制御、階層化されたカスタマイズされたモデル展開方法を確立することによって、「軍事的優位性の獲得」と「セキュリティリスクの制御」の間のバランスを見つけようとしているが、実際には十分にテストされていない。