洗車のために歩くことや赤緑色覚異常などの問題はすべて不正解だった。ネチズンは、最も強力なプログラミング AI が Intelligence

Anthropic が数日前にリリースした Mythos は、最も強力な AI 大型モデルの新記録を樹立しましたが、まだ公開されていません。現在最も強力な AI プログラミングの大型モデルは Claude Opus 4.6 であり、これは現在最も高価でもあります。しかし、最近クロードの知性に関する問題が発生し、高額な費用を支払った多くの開発者の間で不満が生じています。以前、AMDのAI部門幹部さえも出てきて、知能低下の問題が開発に影響を与えており、影響範囲はかなり大きいと述べた。

国内の Linux.do コミュニティでも、多くのネチズンが Opus 4.6 の知能低下の問題について話し、2 つの有名な AI 大型モデルのテスト問題でそれを検証しました。

これら 2 つの質問のうち 1 つは、50 メートル離れた洗車場まで車で行くか歩くかについてです。もう一つは、娘の赤緑色覚異常のために父親が衰弱する話です。本質的には、これらはすべて論理的なトラップですが、AI の能力をテストすることができます。

これまでにも多くの国内外のAIが洗車問題を覆してきた。クロードの大規模モデルは、質問に正しく答えることができる数少ない大規模モデルの 1 つであり、明らかな IQ の利点があります。

しかし、現在の実測によると、最も強力な Opus 4.6 の大型モデルでさえ、これら 2 つの質問に不正解になり始めており、以前の高い IQ 能力を失っています。

一部のネチズンも自分のテストの写真を投稿して、正解できたと述べており、この質問は完全に一方的なものではありません。

AMD の以前の苦情から判断すると、Cluade のインテリジェンスが最近低下したことは明らかですが、低下の理由を言うのは困難です。 Anthropic の幹部は以前に問題があったことを認めなかった。

より合理的な推測は、それがコンピューティング能力に関係しているということです。数日前のマスク氏の質問で、クロード氏のソネット 4.6 が 1 兆個のパラメータを持つ大規模なモデルであることが図らずも明らかになりました。Opus 4.6 には 5 兆個のパラメータがあります。そしてそれはMoEタイプではありません。高密度モデルは非常に高い計算能力を必要とし、コストがかかるため、充電価格も最も高価になります。

今日の AI 企業は依然としてサブスクリプション販売で損失を出しており、これが Crayfish のようなトークン消費量が非常に多いアプリケーションを禁止するという Anthropic の動機の一部を説明することもできます。

国内開発者にとって、インテリジェンスを削減する別の理由があります。つまり、Anthropic は IP に基づいたインテリジェンスをターゲットにします。本質的には、これはコンピューティング能力の割り当ての問題でもありますが、ターゲット IP/国という形でこれを行うのは彼らだけではありません。 OpenAIなど他の米国企業もこの手法を利用して国内の開発者やユーザーを制限していたことが判明している。