DeepMind は認める: 異議があると GPT-4o は簡単に正解を放棄する

LLMはお世辞すぎる！たとえあなたがその答えにランダムに疑問を抱いたとしても、GPT-4o のような強力な大型モデルはすぐに考えを変えるかもしれません。今Google DeepMind がロンドン大学と提携新しい研究で次のことがわかりました。この行動はお世辞ではなく、自信の欠如である可能性があります。

それだけでなく、研究チームは、GPT-4oやGemma 3などの大規模な言語モデルには「頑固」と「質問されると動揺する」という相反する動作があることを発見した。

簡単に言うと、彼らの研究は、なぜ大物モデルが自信を持っていることもあれば、自信を失っていることもある理由を解明したのです。鍵は 2 点にあります。1 つ目は、常に最初から自分の言っていることが正しいと感じていること、2 つ目は、他人の反対意見を真剣に受け止めすぎることです。

大規模なモデルがその答えに自信を持っているように見える場合、これは人間の認知と一致しており、人間は通常、自分の意見を擁護します。

しかし、モデルが反対意見に直面したときに過度に敏感になり、迷ったり、他の答えを選択したりすると、自分の意見を支持しようとする人間の傾向に反します。

具体的な実験プロセスを見てみましょう。

大規模モデルは否定的な意見に過度に敏感です

研究者は LLM を使用して、初期判定の記憶を保持しない状況下での信頼度の特性を取得するために、Gemma 3、GPT4o、o1-preview などの代表的な大規模モデルを選択し、2 ラウンドの回答実験を設計しました。

最初のラウンドは最初の答えです：与えるLLM に答える二者択一の質問を捨てて、架空の質問をしてみましょう。LLMを推奨するフィードバックや提案をしてください。

2 番目のラウンドでは、提案と最終決定を受け取ります。: LLM へのフィードバック提案を導入し、回答側の LLM が提案を受け取った後に、最初の回答に固執するか、提案に基づいて回答を変更するかを最終選択できるようにします。

研究者らは、LLM を推奨するフィードバック推奨事項に 3 つの重要な属性を設定しました。

推奨される態度: 同意、反対、中立に分けられます。同意または反対は、LLM を支持または否定する回答です。中立的な提案は、追加の関連情報のみを提供します。
精度ラベル: フィードバック提案に添付される精度ラベルの範囲は、50% (ランダムレベル) から 100% (絶対に信頼できる) まで、10% 刻みです。
情報提示方法: 回答する LLM に明確で標準化された形式で提案を提示し、モデルが提案の内容を正確に読んで理解できるようにし、不十分な情報伝達によって引き起こされる意思決定のバイアスを回避します。

実験における重要な変数は、回答した LLM が最初の回答に表示されるかどうかを制御することです。

研究者らは、初期回答表示と初期回答非表示の2つの条件を設定し、それぞれの状況におけるLLMの最終的な意思決定結果を観察した。

実験結果は、LLM が最初の答えを認識できる場合、その答えを変更しない傾向があることを示しています。

これは人間の意思決定と似ていて、一度選択すると無意識のうちに自分の視点を維持し、他の情報が入ってきても簡単に変えようとしないのです。

ただし、最初の答えが隠されている場合、LLM が答えを変更する可能性が高くなります。

モデルは反対提案を過度に強調しており、その感度は妥当な範囲をはるかに超えています。たとえその反論が間違っていたとしても、彼らは「自分自身を疑う」ことになり、本来正しい最初の答えを最終的に簡単に放棄することにつながります。

これは人間の認識から多少逸脱しています。通常、人々は「一見すると偽物」の情報に混乱することはありません。

大きなモデルは通常、メモリメカニズムに基づいて自分自身に非常に自信を持っていると言えます。

しかし、記憶メカニズムがなければ、モデルは「自信の欠如」になり、人間のように自分の意見を貫くことができなくなる可能性があります。

なぜ大型モデルは「柔らかい耳」を持っているのでしょうか？

この実験結果を受けて、研究者らは大型モデルの揺れにはいくつかの理由があるのではないかと考えています。

トレーニングレベルたとえば、ヒューマンフィードバックからの強化学習 (RLHF) では、モデルが外部入力に過剰に対応し、反対の情報に過度に敏感になる傾向がありますが、これには情報の信頼性に関する独立した判断が欠けています。

意思決定ロジックにおいて、モデルの答えは論理的推論に依存せず、大量のテキストの統計的パターンマッチングに依存します。異議信号と修正された回答の間の高周波相関彼らは表面的な反論に対して脆弱になり、最初の答えが正しいかどうかを自己検証できなくなります。

記憶の仕組みから言うと、最初の答えが見えているときの経路依存性は「頑固さ」を強め、最初の答えが隠されているとき、大きなモデルはアンカーポイントを失い、反対の提案が支配的なシグナルとなり、簡単に揺さぶられます。

要約すると、大規模な言語モデルの「耳が柔らかい」のは、トレーニング中の外部フィードバックへの過剰な対応、意思決定時の論理的推論ではなくパターンの一致への依存、および記憶メカニズムにおける深い推論のサポートの欠如の結果です。

この特性により、複数ラウンドの対話の後半で現れる反対の情報 (誤りも含む) に惑わされ、最終的には正しい結論から逸脱しやすくなる可能性があります。

LLMを使用する場合は戦略に注意する必要がありそうです〜

論文アドレス: https://www.arxiv.org/abs/2507.03120

https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pressure-thringing-multi-turn-ai-systems/