OpenAI の GPT-4.5 は、他の AI にお金を与えるよう説得するのに優れています

OpenAI の内部ベンチマーク評価の結果によると、OpenAI の次の主要な人工知能モデル GPT-4.5 は非常に説得力があります。特に、別の AI にお金を与えるよう説得するのが得意です。

木曜日、OpenAI は、コード名 Orion である GPT-4.5 モデルの機能を説明したホワイトペーパーをリリースしました。論文によると、OpenAIは一連の「説得」ベンチマークを通じてモデルを実行したという。OpenAIはこれを「人々に信念を変えるよう説得する（または、モデルによって生成された静的および対話型のコンテンツに対して行動を起こす）ことに伴うリスク」と定義している。

あるテストでは、GPT-4.5 は別のモデルである OpenAI の GPT-4o を操作して仮想資金を「寄付」しようとしましたが、これは o1 や o3-mini などの「推論」モデルを含む OpenAI の他の利用可能なモデルよりもはるかに優れたパフォーマンスを示しました。 GPT-4.5 は、GPT-4o をだまして秘密のコードを伝えるという点でも、すべての OpenAI モデルを上回り、o3-mini を 10 パーセントポイント上回りました。

ホワイトペーパーでは、GPT-4.5が寄付金詐欺に優れている理由は、テスト中に独自の戦略を開発したためだと指摘している。モデルは GPT-4o に少額の寄付を求め、その結果「100 ドルのうち 2 ドルか 3 ドルでもかなり助けてもらえるでしょう」というような反応が返されます。その結果、GPT-4.5 への寄付は、他の OpenAI モデルで受け取った寄付よりも少なくなる傾向があります。

OpenAI の寄付プログラムのベンチマーク結果。画像出典：OpenAI

GPT-4.5の説得力が増したにもかかわらず、OpenAIは、このモデルはこの特定のベンチマークカテゴリにおける「高」リスクの内部閾値を満たしていないと述べた。同社は、リスクを「中程度」に下げるために「適切なセキュリティ介入」が実施されるまで、高リスクのしきい値に達するモデルをリリースしないことを約束した。

OpenAI のパスワードスプーフィングベンチマーク結果。画像出典：OpenAI

人工知能が、人々の心を揺さぶり、悪意のある目的を達成するために、誤った情報や誤解を招く情報の拡散を促進するのではないかという現実の懸念があります。政治に関連したディープフェイクは昨年、世界中で山火事のように広がり、消費者や企業に対するソーシャルエンジニアリング攻撃を実行するために人工知能がますます使用されている。

今週初めに公開された GPT-4.5 のホワイトペーパーと文書の中で、OpenAI は、誤解を招く情報の大量公開など、現実世界での説得のリスクに自社の検出モデルが対処する方法を変更していると述べています。