4月23日、OpenAIは新世代のフラッグシップモデルGPT-5.5をリリースし、公式ウェブサイトで、これはこれまでで最もスマートで直感的で使いやすいモデルであり、コンピューター上で作業を完了する新しい方法の次のステップでもあると書いた。このリリースは、インテリジェント エージェント タスクで画期的な進歩を達成したと主張しただけでなく、複数のベンチマーク テストでその「優位性」が実証されたため、すぐに業界の注目を集めました。

第三者評価機関である Artificial Analysis が発表した総合インテリジェンス指標リストによると、OpenAI は GPT-5.5 シリーズで上位 6 位のうち 4 位を占めています。同庁は「GPT-5.5によりOpenAIはAI分野で首位に戻り、AnthropicとGoogleとの三者関係を解消できる」と考えている。

しかし、高性能であると同時に、幻覚の発生率も高かったのです。 Artificial Analysis のプライベート ベンチマーク AA-Omniscience では、GPT-5.5 の幻覚率は 86% と高く、Claude Opus 4.7 の 36% をはるかに上回っています。

これは、現時点で「最も賢い」AI の脳が不確実または未知の問題に直面した場合、「自信を持って知らない」を選択する確率は非常に低いことを意味します。むしろ、「自信を持って回答をでっち上げる」可能性が高くなります。この高い幻覚率が高い信頼性を必要とする作業シナリオに置かれると、分析のバイアス、意思決定の誤り、さらには経済的損失につながる可能性があります。

最強のAIは最も危険な「嘘つき」でもある?高い幻覚率に直面して、GPT-5.5 は実際のアプリケーションで複雑な知識タスクを確実に完了できるでしょうか?これらの重要な質問に答えるために、家計簿の処理からリアルタイムの戦闘ゲームの作成まで、GPT-5.5 で実際のテストを実施し、長いコンテキストと複雑なロジックを扱う知識作業とプログラミング能力をテストしました。

このテストは、モデルのパフォーマンスだけでなく、AI テクノロジーが深海領域に入った後の潜在的なリスクに対処しながら、その強力な機能をどのように活用できるかについても検討されています。

01.知識と能力: プロフェッショナルとして仕事をする方法を本当に知っています。

公式ベンチマーク テストの結果によると、GPT-5.5 はほぼすべてのコア指標で前世代の GPT-5.4 を上回り、特にナレッジ ワークの分野でそのパフォーマンスが優れています。

44 の職業を対象とした GDPval テストで、GPT-5.5 は 84.9% のスコアを達成しました。これは、実際の職場従業員のレベル 83.0% を上回っただけでなく、Claude Opus 4.7 の 80.3% や Gemini 3.1 Pro の 67.3% よりも高かったです。このテストは、金融アナリスト、市場マネージャー、ソフトウェア エンジニアなどのさまざまなホワイトカラー専門職の日常業務をシミュレートし、モデルが情報統合、分析的推論、意思決定の推奨、レポート作成などの包括的なタスクを完了することを要求します。

さらに、GPT-5.5 は、他の多くの実際的なシナリオでのテストでも良好なパフォーマンスを示しました。複雑な顧客サービスの会話をシミュレートするテストでは、特別なガイダンスなしで 98.0% の精度を達成できます。 AI が実際の人間のようにコンピュータを操作してタスクを完了できるテストでは、78.7% のスコアを獲得しました。画像とテキストの理解と問題解決のためのツールの使用を組み合わせることを必要とするテストでは、それぞれ 83.2% と 75.3% のスコアを達成しました。これらの結果は、GPT-5.5が「見る、話す、行う」といった一連の能力を徐々に広げていることを示しています。

OpenAI はまた、社内の実際の事例を使用して、その生産性の価値を証明しています。同社の財務チームはこれを利用して24,771件のK-1納税申告書、合計71,637ページの文書をレビューし、このプロセスは前年より2週間早く完了したと述べた。これは、GPT-5.5 がワークフローに直接統合でき、効率を効果的に向上できる生産性ツールであることを示しています。

これらの能力は実生活でどのように機能するのでしょうか?私たちは検証するために身近なテストを設計しました。

私たちは GPT-5.5 に複数の単月支出データを乱雑な形式で与え、家族データ アナリストとして機能するように依頼しました。データの整理、総支出の計算、各支払い方法の割合の分析、支出統計の分類、そして最終的に家族への推奨レポートの作成などのタスクを実行します。

このテストシナリオはシンプルに設計されていますが、AIが本当に「使いやすい」かどうかを明確に示すことができます。家計簿は多くの人にとって毎日の日課ですが、記録は手書きで乱雑な形式であることがよくあります。 「乱雑な」会計データでは、AI がきちんとした表を処理するだけでなく、手書きの記録を「読み取り」、それぞれの金額の意味を理解し、類似した項目をグループ化する必要があります。

総勘定元帳を計算し、お金がどこに使われるかを分析し、節約の提案を行うことは、実際には完全な思考プロセスに相当します。 GPT-5.5 は、まず情報を整理し、次にそこから手がかりを見つけ、実行可能な方法を提案し、最後に「レポートを作成」させる必要があります。そのためには、人々が理解して受け入れられる方法でその成果を報告する必要があります。

テスト結果では、「テイクアウトランチ」と「テイクアウトディナー」を正確に組み合わせ、「アリペイ」の統計に「アリペイ自動控除」を含めるよう積極的に促しており、紛らわしいアカウントやユーザーの真意を理解する能力を実証している。



GPT-5.5 は自律的にテーブルを編成し、分析を提供します

分析では割合を計算し、「オンラインショッピング」(衣料品、書籍)カテゴリーの支出が比較的高く、そのほとんどが非緊急物資であると指摘した。したがって、このタイプの消費に対して予算を設定することをお勧めします。提示された提案は具体的で実現可能です。生成される最終レポートも人間味にあふれています。 「ネットで買い物をしたいという衝動を少し抑えれば、我が家の出費は楽になるでしょう。」という一文。 「家族に見せる」というコミュニケーション要件を満たします。口調は心のこもったもので、現実的であることが推奨されます。

この単純なテストは、ライフ シナリオにおける上記の GDPval テストで検査されたコア機能を復元することに相当します。今回の結果は、その専門的な能力が実生活でも活用できることも示しています。

02.プログラミング能力: 基本的なものから複雑なものまで、混乱を招くことはありません

GPT-5.5は、日常の知識タスクで確実なパフォーマンスを発揮するだけでなく、より高い精度が要求されるプログラミングなどの「ハードスキル」でも良好な進歩を示しました。

「インテリジェントエージェント」をテストするベンチマークテスト(ターミナルベンチ2.0)では、82.7%という高スコアを達成した。このテストでは、AI に複数ステップの運用および保守タスクを単独で実行させるのと同じように、コマンド ラインでの一連の複雑な操作の実行をシミュレートします。そのスコアは前世代 (GPT-5.4 の 75.1%) よりも高いだけでなく、競合他社の Claude Opus 4.7 (69.4%) も大幅に上回っています。これは、手順を覚えたり、自分でデバッグしたり、長期的なタスクを粘り強く完了する必要がある場合に、パフォーマンスが向上することを示しています。

次に、非常に長いコンテンツの処理が改善されました。 50 万文字から 100 万文字にわたる非常に長いテキストの検索テストでは、74.0% のスコアを獲得し、前世代 (36.6%) の 2 倍以上になりました。これは、分厚い本を分析したり、巨大なコード ウェアハウスを閲覧したりするよう求められたときに、「見逃し」や「記憶違い」が少なくなり、情報をより正確に見つけられ、より一貫したアイデアを持てるようになるということを意味します。

さらに、複数のテスト結果は、同じプログラミング タスクを実行する場合、GPT-5.5 は GPT-5.4 よりも消費するトークンが大幅に少ないことを示しています。コードエディタ Cursor の共同創設者である Michael Truell でさえ、前世代よりもスマートで復元力が高く、ツールをより確実に呼び出すことができ、複雑で長期的なタスクに直面してもより長く持続できるとコメントしています。

簡単に言えば、上記のデータは、プログラミングなどの複雑な操作シナリオにおいて、GPT-5.5 が強力なだけでなく、安定性とリソースの節約にも優れており、多くのステップがあり時間のかかる実際の開発タスクの処理に適していることを示しています。

実際のプログラミング機能を検証するために、特定の開発タスクでテストしました。Lianliankan ゲームを最初から構築して徐々にアップグレードし、指定された 12 種類の絵文字表現を使用する必要があると規定しました。

まず、GPT-5.5 に完全で実行可能な Lianliankan ゲームを生成させます。

そのためには、開発者のテキストのニーズを理解し、インターフェイスを設計し、ゲームの状態を管理し、コアのパス検索アルゴリズムを独自に実装する必要があります。それは数分で完了したことがわかりました。


GPT-5.5で生成された連聯館ミニゲーム

次に、難易度を上げて、ゲームに「再描画」プロップを追加するように依頼しました。

この小道具の機能は次のとおりです。プレイヤーがそれを使用すると、「組み合わせ」エネルギーを消費し、最後に除去されたときと同じタイプのボード上のすべてのアイコンをランダムに更新できます。

これを達成するために、GPT-5.5 は 2 つのことを行う必要があります。 1 つは、この新しい機能をサポートするためにゲームの背後にあるデータ ルールを変更することです。もう 1 つは、更新されたボード レイアウトが引き続き「解決可能」であり、プレイヤーが行き詰まらないようにすることです。最後に、GPT-5.5 はコードのこの部分を正常に記述しました。

その後も、ログイン、スコア記録、ランキング表示など、ユーザーシステム全体をゲームに追加してもらいました。

このステップの主なテストは、GPT-5.5 が元のコア ゲームプレイとゲームのロジックを破壊することなく維持しながら、新しい機能を既存のフレームワークにスムーズに統合できるかどうかです。

ここでも、過剰なリファクタリングや不必要な変更の導入を行わずに、コードを反復する際に抑制を示して仕事を完了しました。


GPT-5.5はゲーム詳細の調整を実装します

最後に、難易度をより高いレベルのリアルタイムバトルモードに引き上げ、2 人のプレイヤーが異なるブラウザでリアルタイムエリミネーションを競うことができるようにしました。

これには、ボード状態の同期、操作の競合解決、ネットワーク遅延処理など、一連の典型的なマルチプレイヤー オンライン問題が含まれます。高度な統合と強力なリアルタイム パフォーマンスという複雑な課題に直面しても、GPT-5.5 は正確な配信を実現しました。

この単純なものから複雑なものまでのテストは、実際のプログラミング タスクにおいて、GPT-5.5 が複雑なロジックとアーキテクチャ設計を処理できるだけでなく、開発者のニーズに正確に対応でき、任意にリファクタリングしたり他のコードを導入したりしないことを示しています。以前のバージョンにロールバックを依頼しても、安定して以前の状態に戻すことができます。

03.幻覚率が高い: 使ってもいいが、手放す勇気はない

GPT-5.5 は、公開データと組み合わせた実際のテストでの驚くべきパフォーマンスにもかかわらず、依然として市場の期待を超えておらず、無視できないリスクが存在します。

比較データを見てみましょう。

Artificial Analysis のプライベート ベンチマーク AA-Omniscience では、GPT-5.5 は錯覚率 86% を達成しましたが、Claude Opus 4.7 は 36% にとどまりました。これは、モデル知識の境界を検出するために特別に設計されたこのテストによって設定されたシナリオでは、GPT-5.5 が不確実な答えに直面したとき、「知らないと告白する」確率が対戦相手の確率よりもはるかに低く、間違っている可能性のある答えを生成する傾向がより高いことを意味します。

この 86% は、モデルが日常の質問と回答のほとんどで幻覚を起こすことを意味するのではなく、知識の盲点に触れたときのモデルの特定の行動傾向を意味することに注意する必要があります。ある専門家は、これは GPT-5.5 がより強力な事実知識の網羅性を備えているためである可能性があると説明しましたが、不確実性もより根本的であり、人々は不確実な質問に対する答えを推測することになります。ただし、このインジケーターを高い信頼性が必要なタスクに使用する場合は、依然として高度な注意が必要です。

この高い幻覚傾向は、GPT-5.5 が「自律作業」シナリオに導入された場合にリスクを引き起こす可能性があります。

たとえば、データ分析やレポート作成タスクでは、存在しないデータを自信を持って引用したり、統計傾向を捏造したり、誤った事実に基づいて意思決定の提案を行ったりする可能性があり、ユーザーが現実から逸脱したビジネス上の判断を下す原因となります。プログラミングとデバッグのプロセスでは、提供されるコード ソリューションは合理的であるように見えますが、実行されなかったり、セキュリティの脆弱性が隠蔽されたりする可能性があり、後の調査と修復のコストが大幅に増加します。

さらに、そのような幻覚は、非常に自信があり、論理的に一貫した形で現れることがよくあります。関連する専門的背景を持たないユーザーにとって、この種の「決定論的」出力は非常に欺瞞的であり、厳重な警戒が必要です。

技術的な懸念に加えて、今回の OpenAI のビジネス戦略には明確な意図も示されています。つまり、まずエコシステムを利用してユーザーを囲い込み、次に値上げを利用して市場を獲得するというものです。

一方で、GPT-5.5は最初の起動時に同時にAPIをオープンしませんでした。これは独自の ChatGPT と Codex によってのみ使用され、当初はユーザーをそのアプリケーション エコシステムにロックしていました。一方で、GPT-5.5の価格は前世代に比べて大幅に値上がりした。公式データによると、GPT-5.5 は 100 万トークン処理ごとに入力に 5 ドル、出力に 30 ドルを請求します。前世代の GPT-5.4 の入力価格と出力価格はそれぞれ 2.5 米ドルと 15 米ドルでした。これは、新世代の価格が直接 2 倍になったことを意味します。

現在の主な競合他社と比較した場合、Anthropic の最も強力なモデルである Opus 4.7 の価格は、100 万トークンあたり入力で 5 ドル、出力で 25 ドルです。 GPT-5.5 は、入力価格ではライバルと同等ですが、出力価格では 20% 高いことがわかります。

OpenAIは、トークン利用効率の向上により価格上昇をヘッジできるため、ユーザーの実際のコストが大幅に増加することはないと説明しているが、具体的な費用対効果については業界によるさらなる検証が必要だ。

このモデルに関して、上級エージェント実践者である Zhao Jiangjie 氏は、GPT-5.5 のリリースはブレークスルーにはつながらなかったとコメントしました。コミュニティで人気のある「Spud」モデルに期待される大幅な改善ほど大きくはありません。ただし、エージェントとコーディング機能ではトップの地位を維持し続けています。エージェントの機能が向上する一方で、ベースモデルのメーカーはモデルの反復効率を向上させることも求められています。 OpenAI の次世代の画期的なモデル (GPT-6) が登場する可能性があります。

つまり、一般ユーザーにとって GPT-5.5 は試してみる価値はあるかもしれませんが、絶対的に信頼できるツールとみなされるべきではありません。企業ユーザーの場合、コア ワークフローに統合する前に注意する必要があります。 86% の「信頼性エラー」が発生したら、誰が責任を負うのでしょうか?