生成 AI ツールは、かつては SF の世界の話のように思われたタスクを実行できますが、そのほとんどは、アナログ時計やカレンダーの読み取りなど、多くの基本的なスキルに依然として苦労しています。新しい研究によると、全体として、人工知能システムが時計の文字盤を正しく読み取る時間は 4 分の 1 以下です。
エディンバラ大学の研究チームは、時計やカレンダーの画像に基づいた質問にどれだけうまく答えることができるかを確認するために、トップクラスのマルチモーダル大規模言語モデルのいくつかをテストしました。
テストされたシステムには、GoogleDeepMind の Gemini2.0、Anthropic の Claude3.5Sonnet、Meta の Llama3.2-11B-Vision-Instruct、Alibaba の Qwen2-VL7B-Instruct、ModelBest の MiniCPM-V-2.6、OpenAI の GPT-4o および GPT-o1 が含まれます。
画像にはローマ数字が入っているもの、秒針があるもの、秒針がないもの、文字盤の色の異なるものなど、さまざまな種類の時計が登場します。
システムが時計を正しく読み取る確率は 25% 未満です。彼らは、ローマ数字と様式化された針を使用する時計ではさらに苦労します。
秒針を外してもAIのパフォーマンスは改善されなかったため、研究者らは問題は時計の針の検出と文字盤の角度の解釈にあると考えた。
研究者らは、10年分のカレンダー画像を使って、「元旦は何曜日か」などの質問をした。最も成功した AI モデルでも、20% の確率でカレンダーの問題を間違えます。
成功率は使用するAIシステムによって異なります。 Gemini-2.0 は時計テストで最も高いスコアを獲得しましたが、GPT-01 はカレンダーの質問で 80% の正確性を示しました。
研究リーダーであるエディンバラ大学情報学部のロヒト・サクセナ氏は、「ほとんどの人は時間を告げたり、カレンダーを使ったりして育ってきた」と語る。 「この調査結果は、人間の基本的なスキルを実行する AI の能力に大きなギャップがあることを浮き彫りにしています。AI システムを、スケジューリング、自動化、支援技術など、時間に敏感な現実世界のアプリケーションにうまく統合するには、これらの欠点に対処する必要があります。」
エディンバラ大学情報学部の別の研究者であるアリオ・ゲマ氏は、「今日の人工知能研究では、複雑な推論タスクが強調されることが多いが、皮肉なことに、多くのシステムは、より単純な日常タスクの処理に依然として苦労している」と述べた。
この研究結果は、4月28日にシンガポールで開催される第13回学習表現国際会議(ICLR)の大規模言語モデル推論および計画ワークショップで発表される査読済み論文で報告される予定です。研究結果は現在、プレプリントサーバーarXivで入手可能です。
AI システムが依然として多くの間違いを犯していることを示唆する今月の研究はこれが初めてではない。ダウ デジタル ニュース センターは、8 つの人工知能検索エンジンについて調査を実施し、60% の確率で不正確であることが判明しました。最も悪いのは Grok-3 で、命中率は 94% です。