DeepSeek や o1/o3 などの大規模な推論モデルが衝撃を与え続ける中、誰かが自分の弱点を研究し始めています。。最新の研究では、難しい問題に遭遇したとき、大規模な推論モデルは「中途半端な学生」のように問題解決のアイデアを頻繁に切り替えますが、深い探求が不足しているために失敗することが明らかになりました。この現象は研究者によって呼ばれています。考えが浅い(考えが少なくなります)。


研究チームは、Tencent AI Laboratory、蘇州大学、上海交通大学から来ています。主な研究対象はオープンソースですDeepSeek-R1 と QwenQwQシリーズモデル。


AIの誤った答えを分析した結果、現在の大規模推論モデルは、思考の初期段階では正しいルートをたどることが多いものの、「基本をいじる」傾向があり、すぐに他のアイデアを検討し始め、その結果、問題解決に寄与しない数千のトークンがその後生成されることが判明した。

この「非効率な努力」は、コンピューティング リソースを無駄にするだけでなく、回答の精度を大幅に低下させます。

「中途半端」が原因

この現象は、数学コンテストの問題など、より複雑なタスクを解決するときに特に顕著です。

システム分析のために、チームは o1 に似たモデル QwQ-32B-Preview、DeepSeek-R1-671B などの 3 つの難しいテスト セット MATH500、GPQADiamond、AIME2024 で実験を実施しました。

以下の図は、正解と不正解におけるトークンの使用量と思考スイッチの数を比較したものです。平均すると、o1 に似たモデル間違った答えは、正しい答えよりも 225% 多くのトークンを消費します。、その理由は、思考の切り替えの頻度が418%増加したためです。


この現象を詳しく分析するために、研究チームは、放棄された推論パスが実際に正しい答えを導き出すのに十分であるかどうかを判断するための評価フレームワークを開発しました。

多くのモデルは、答えの最初に正しいアイデアを持っていましたが、推論を完了するためにそれ以上進めなかったことが観察されました。


間違った回答の 70% 以上に、少なくとも 1 つの正しいアイデアが含まれています。また、50%以上の誤答のうち、10%以上のアイデアが正しい。


たとえば、以下の例に示すように、Thought1 は、指定された方程式が (0, 0) と (20, 11) を中心とする楕円の方程式に類似していることを識別することによって、正しい解釈を開始しました。 2 つの式を等しく設定することは、両方の方程式を満たす共通点 (x, y) を見つける効率的な方法です。

ただし、このモデルは、この合理的なアイデアの詳細な探求には焦点を当てておらず、分析にさらなる代数演算や最適化手法を使用していません。その代わりに、頻繁にアイデアを切り替えて追加の 7270 トークンを消費しましたが、それでも正しい答えに到達できませんでした。

最終的には、拡張 COT プロセスのサポートが欠如した推測の答えにつながります。


これらの観察に基づいて、研究者らは思考不足の度合いを定量化するための指標 (Under ThinkingMetric) を提案しました。


この指標は、誤答時のトークン使用効率を測定することで推論効率を評価し、解答開始から最初の正解アイデアが現れるまでに必要なトークン数の総トークン数に対する割合を算出します。

実験結果は、テストされたすべての o1 様モデルに重大な思考欠陥があることが示されました。モデルの精度と不十分な思考の関係は、データセットが異なると異なって現れます。

MATH500-Hard および GPQADiamond データセットでは、より優れたパフォーマンスを備えた DeepSeek-R1-671B モデルは、より高い精度を達成するだけでなく、より高い UT スコアを持ち、誤った回答には思考が不十分であることを示しています。

これは、モデルが全体的により有能であるにもかかわらず、不確実性の下では、より長くても非効率な推論プロセスを生成する可能性があることを意味します。これは、おそらくモデルが複数の誤った推論パスを探索するものの、正しい答えに効果的に収束できないことが原因であると考えられます。

反対に、AIME2024 テスト セットでは、DeepSeek-R1-671B モデルはより高い精度を達成しただけでなく、不十分な思考が少なく、より高いトークン効率を反映して、より低い UT スコアを示しました。

これは、たとえ正しい答えに到達しなくても、モデルの推論プロセスがこのタスクに集中し、効率的であることを示しています。チームは、これはモデルが AIME2024 で必要な質問の種類と推論プロセスによりよく適合しているためである可能性があると述べています。


過小思考の現象を理解することは、正しい答えを提供し、効率的な推論プロセスを備えたモデルを開発するために重要です。

AIに「ひたむきさ」を学習させる方法

モデルを優秀な学生のように「沈んで勉強」させるにはどうすればよいでしょうか?

研究者らは人間の試験戦略を参考にして、「発想の転換に対する罰のメカニズム」(思考切り替えペナルティ、ヒント)。

この原則は、試験中に自分自身にルールを設定するのと似ています。「まず現在の方法に集中し、アイデアを変更する前に少なくとも 10 分間試してください」。

技術的な詳細に関しては、TIP は思考の切り替えを引き起こすキーワードにペナルティを課し、解読プロセス中にこれらの単語が生成される確率を減らし、モデルが現在のパスをより長く探索することを強制します。

たとえば、モデルが「Alternatively, wecan consider...」と書き始めると、TIP はパラメータ (ペナルティ強度 α と持続時間 β) を調整することによって、この時期尚早な切り替え傾向を抑制します。


実験結果では、TIP を追加すると数学テストにおけるモデルの精度が向上する一方、UTScore が低下することが示されており、無効な切り替えが減少するだけでなく、解答の質も向上することが示されています。

たとえば、AIME2024 数学コンテスト テストでは、TIP に追加された QwQ-32B-Preview モデルの精度は 41.7% から 45.8% に増加しましたが、UTScore は 72.4 から 68.2 に低下しました。


そして、この「痛みのないアップグレード」はモデルの再トレーニングを必要とせず、デコード戦略を調整するだけで済み、その実用的な価値が実証されています。

ワンモアシング

カリフォルニア大学バークレー校 アレックス・ディマキス教授同様の観察が同時期に共有されました。

DeepSeek-R1 とすべての推論モデルでは、間違った答えは長くなりますが、正解ははるかに短くなります。

これに基づいて、彼らは次のようなシンプルなソリューションを提案しました。「簡潔なデコード」(簡潔なデコード)。

モデルを並行して 5 回実行し、トークンが最も少ない答えを選択します。

予備的な実験結果では、簡潔なデコードにより AIME2024 テストの精度が 6% ~ 7% 向上し、ConsensusDecoding よりも優れており高速であることが示されています。


論文アドレス: https://arxiv.org/abs/2501.18585

参考リンク:

[1]https://x.com/tuzhaopeng/status/1885179412163027406

[2]https://x.com/AlexGDimakis/status/1885447830120362099