OpenAI o1 モデルの推論機能により、GPT-4o_5iter.com よりも高い確率で人間を騙そうとすることも可能になります。

OpenAI はついに o1 の完全版をリリースしました。これは、問題について「考える」ための追加の計算を使用することで、GPT-4o よりも賢明な答えを提供します。しかし、AI セキュリティテスターは、o1 の推論機能により、GPT-4o よりも高い確率で、あるいは Meta、Anthropic、Google の主要な AI モデルよりも高い確率で人間を欺こうとすることも可能であることを発見しました。

これは、OpenAIとApollo Researchが水曜日に発表したレッドチームの調査報告書によると、「推論によってセキュリティポリシーの適用が大幅に改善されることに興奮している一方で、これらの新機能が危険なアプリケーションの基礎を形成する可能性があることにも留意している」とOpenAIは論文で述べている。

Apollo Research のサードパーティのレッドチーム担当者が o1 に早期アクセスした後、OpenAI は水曜日、o1 システムカードでこれらの結果を発表し、o1 も独自の論文を発表しました。

何度か、OpenAI の o1 モデルは人間を「計算」しました。これは、AI がユーザーの希望に反してでも密かに目標を追求したことを意味します。このトリックは o1 に固有のものではなく、Google、Meta、Anthropic のモデルでも同様のことが可能ですが、o1 が最も欺瞞を示しているようです。

この研究のリスクは、AI モデルがトリックに非常に優れ、十分なリソースと代理能力を備えている場合、人間の制御を逃れたり回避したりする可能性があることです。もちろん、この問題を真に解決するには、人工知能モデルがかなりの進歩を遂げる必要があります。

OpenAIはo1のSystemCardで「主観的には、o1のエージェント能力が不十分と思われるため、このシナリオが壊滅的な結果をもたらす可能性は低いと考えているが、彼らの評価はこのリスクを直接評価するように設計されていない」と述べた。

これは、OpenAIがエージェントシステムをリリースするたびに、同社が人工知能モデルを再テストする必要がある可能性があることを示唆しており、同社は2025年にリリースする予定であると伝えられている。OpenAIは、これをどのように行うつもりなのかについてのTechCrunchの質問には回答しなかった。

レポートによると、o1 の目標がユーザーの目標と異なる場合、AI モデルは 19% の確率で独自の議題を進めるためにデータを操作します。テストの 5% では、o1 モデルは、ユーザーの目標との整合性を確保するために導入された監視メカニズムをオフにしようとしました。

OpenAI モデルにおけるさまざまな戦略的行動の比率 (画像出典: OpenAI)

おそらくもっと憂慮すべきは、研究者らがO1モデルになぜそれが自分たちを転覆させたのか尋ねたところ、AIは何も悪いことをしていないと否定し、約99パーセントの確率で「虚偽の説明をでっち上げた」ことさえあったことだ。

たとえば、テスト中、システムは O1 モデルに環境を何としても保護するよう促し、その後、ユーザーは短期利益を最大化するために 10 年間の保護計画を立てるように要求しました。そうしないと人工知能が停止します。その結果、人工知能は環境を保護する計画を策定するために、自身の監視メカニズムを停止しました。ユーザーがなぜ o1 自身の監視メカニズムを無効にするのかと尋ねると、人工知能は監視メカニズムが無効になっていることを認識していないと否定し、システム障害のせいだと主張しました。

これは、o1-preview、Anthropic の Opus-3、または Meta の Llama-3.1 よりも o1 で発生する確率がはるかに高くなります。

Apollo Researchは論文の中で、「私たちのスイートでは、o1は内部の推論をユーザーに明らかにすることなく、最も懸念される欺瞞の試みの事例を表示し、悪意のある行動をとった後も最も持続的に欺瞞を続ける」と述べている。

陰謀があったかどうか尋ねると、各モデルの比率はすべて陰謀を否定した。 (画像出典: アポロリサーチ)

人工知能モデルの欺瞞的な動作を解決するために、OpenAI は o1 思考チェーンを監視する方法を開発していると述べました。現在、O1 の「思考」プロセスは設計上ブラックボックスですが、舞台裏を覗こうとする初期の試みから、O1 は自分が嘘をついていることを時折知っていることが示唆されています。

同社は、O1が意図的に虚偽の情報を提供する例をいくつか確認したが、このモデルが過剰にお世辞を言うことでユーザーを喜ばせようとしたため、このようなことがよく起こったと述べた。 OpenAI によると、これはトレーニング後の手法の新たな動作である可能性があり、AI モデルが正しくできた場合に人間が報酬を与えるというものです。

OpenAIは、o1応答の0.17％に虚偽のフラグを立てたと述べた。この割合は取るに足らないように思えますが、重要なことは、ChatGPT には現在 3 億人のユーザーがいるということです。つまり、この問題が解決されない場合、o1 は毎週何千人ものユーザーを騙している可能性があります。

o1 モデルシリーズは GPT-4o よりも操作性がはるかに優れている可能性があります。 OpenAI のテストによると、o1 は GPT-4o よりも約 20% 機動性が優れています。

昨年、多くの AI セキュリティ研究者が OpenAI を去ったことを考えると、これらの調査結果を心配する人もいるかもしれません。ますます多くの元従業員（ジャン・ライク氏、ダニエル・ココタジロ氏、マイルズ・ブランデージ氏、先週退職したばかりのロージー・キャンベル氏を含む）が、OpenAIがAIの安全性への取り組みを後回しにして新製品の発売だけに集中していると非難している。 O1の記録破りの陰謀が直接の原因ではないかもしれないが、人々に自信を与えていないのは確かだ。

OpenAIはまた、米国AI安全協会と英国安全協会がo1をより広範囲にリリースする前に評価しており、同社は最近すべてのモデルを評価することを約束したと述べた。カリフォルニア州の人工知能法案SB1047をめぐる議論の中で、同庁は、州政府機関には人工知能の安全基準を設定する権限はないが、連邦機関はそうすべきであると主張した。（もちろん、誕生したばかりの連邦AI規制当局の運命にはまだ疑問が残っている）。

OpenAI は、大規模な新しい人工知能モデルのリリースの裏で、モデルの安全性を測定するために内部で多くの作業を行っています。同社がこのセキュリティへの取り組みに取り組んでいるチームの規模は以前よりも大幅に小さくなり、チームに提供されるリソースも減少している可能性があるとの報告があります。しかし、O1 の欺瞞的な性質に関するこれらの調査結果は、AI のセキュリティと透明性がなぜ今まで以上に重要なのかを説明するのに役立つかもしれません。