研究者たちは人工知能をテストするためのベンチマークとしてスーパーマリオを使用しています

ポケモンは人工知能にとって厳しいベンチマークですか?研究者チームは、スーパーマリオブラザーズの方が挑戦的だと考えています。カリフォルニア大学サンディエゴ校のハオ人工知能研究所（HaoAILab）の研究者らは金曜日、スーパーマリオブラザーズゲームのライブストリーミングに人工知能を導入した。 Anthropic の Claude3.7 が最高のパフォーマンスを示し、次に Claude3.5 が続きました。 GoogleのGemini1.5ProとOpenAIのGPT-4oのパフォーマンスは低かった。

ご存知のとおり、スーパーマリオブラザーズのバージョンは、1985 年にリリースされたオリジナルのバージョンとまったく同じではありません。ゲームはエミュレータで実行され、GamingAgent フレームワークと統合されて、人工知能がマリオを制御できるようになります。

HaoAILabが開発したGamingAgentは、「障害物や敵が近づいてきたら左に移動・ジャンプして避ける」などの基本的な指示とゲームのスクリーンショットを人工知能に提供する。次に、AI はマリオを制御する入力を Python コードの形式で生成します。

しかし、ハオ氏は、このゲームでは各モデルが複雑な操作を計画し、ゲーム戦略を開発することを「学習」する必要があると述べた。興味深いことに、研究室では、推論モデル (解決策に到達するために問題を段階的に「考える」OpenAI の o1 モデルなど) は、ほとんどのベンチマークでは一般的に優れているにもかかわらず、「非推論」モデルよりもパフォーマンスが低いことがわかりました。

研究者らは、推論モデルがこのようなリアルタイムゲームをプレイするのに問題がある主な理由の 1 つは、アクションを決定するまでにしばらく (多くの場合は数秒) かかることだと述べています。スーパーマリオブラザーズではタイミングがすべてです。1 秒が安全にジャンプできるか、奈落の底に落ちるかの違いを意味します。

ゲームは何十年もの間、人工知能のベンチマークとして使用されてきました。しかし一部の専門家は、AIのゲームスキルを技術の進歩と結びつける賢明さに疑問を抱いている。現実世界とは異なり、ゲームは抽象的で比較的単純である傾向があり、理論的には人工知能をトレーニングするための無制限の量のデータを提供します。

最近の派手なゲームベンチマークは、OpenAI の研究科学者であり創設メンバーである Andrej Karpathy 氏が「評価の危機」に直面していることを示唆しています。

「今、どのような[AI]指標を見ればよいのか本当に分かりません。TLDR、私の反応は、これらのモデルが現時点でどれほど優れているのか本当に分からないということです」と彼はXに関する投稿で書いた。

しかし、少なくとも私たちはAIがマリオをプレイするのを見ることができます。