OpenAI が衝撃的な o3 と o4-mini をリリース、初めて画像を使用して思考し、10 倍のコンピューティング能力を搭載

o3 と o4-mini の完全版は深夜に登場しました。初めて、イメージ推論が思考チェーンに統合され、ツールを個別に呼び出して複雑な問題を 60 秒以内に解決できるようになりました。特に、o3 はプログラミング、数学、視覚的推論 SOTA を更新し、o1 の 10 倍の計算能力を備え、「天才レベル」に近づいています。さらに、OpenAI はプログラミング成果物 Codex CLI もオープンソース化し、一夜にして普及しました。

予想どおり、o3 の完全な健康バージョンが実際に登場しました。

ちょうど今、OpenAI の共同作成者であるグレッグブロックマンと最高研究責任者のマークチェンがチームを率い、20 分間のオンラインライブブロードキャストを開始しました。

今回はo3だけでなく、次世代推論モデルo4-miniも登場しました。視覚推理の最高峰ともいえる「イメージによる思考」を初めて実現します。

AI エージェントと同様に、2 つのモデルは独立して判断し、ChatGPT の組み込みツールを組み合わせて、1 分以内に詳細かつ包括的な回答を生成しました。

これには、Web ページの検索、Python を使用したアップロードされたファイルとデータの分析、視覚的な入力に対する詳細な推論の実行、さらには画像の生成が含まれます。

Codeforces、SWE-bench、MMMU などのベンチマークテストでは、o3 は SOTA を更新し、プログラミング、数学、科学、視覚認識における新しいベンチマークを設定します。

特に、o3 は画像、チャート、グラフィック分析に優れたパフォーマンスを発揮し、視覚入力の詳細を深く掘り下げることができます。

Codeforces では、新しいモデルは 2700 ポイント以上を獲得し、世界の上位 200 位にランクされました。

ウルトラマンの言葉を借りれば「天才の域に近い、もしくは達している」。

ただし、このインテリジェンスの代償として、o1 の 10 倍を超える計算能力が必要になります。

o3 の完全版と比較すると、o4-mini はコンパクトさ、効率性、コストパフォーマンスの高さが際立っています。

AIME 2025 テストでは、o4-mini が Python インタプリタで 99.5% の高スコアを達成し、このベンチマークテストでほぼ完璧に勝利しました。

さらに、数学、プログラミング、ビジュアルタスク、および非 STEM 分野では、パフォーマンスが o3-mini よりも優れています。

さらに、o4-mini は o3 よりもはるかに多くの使用法をサポートしているため、同時実行性の高いシナリオに最適です。

全体として、o3 と o4-mini はどちらもコーディングが非常に得意であるため、OpenAI は、端末上で実行できる軽量プログラミング AI エージェントである Codex CLI もオープンソース化しました。

本日より、ChatGPT Plus、Pro、および Team ユーザーが、o1、o3-mini、および o3-mini-high に代わる o3、o4-mini、および o4-mini-high を初めて体験することになります。

同時に、これら 2 つのモデルは、Chat Completions API および Responses API を通じてすべての開発者も利用できるようになります。

推論モデル、初めてツールを使用

ライブデモンストレーション中、Greg 氏は最初に価値について言及しました。一部のモデルは質的飛躍のようなもので、GPT-4 もその 1 つであり、同じことが今日の o3/o4-mini にも当てはまります。

同氏は、o3 のおかげで彼と OpenAI の同僚は、大規模な AI モデルが「これまでに見たことのないこと」を達成できることを知ることができたと述べました。たとえば、それ自体が素晴らしいシステムアーキテクチャのアイデアを思いつきました。

この 2 つのモデルの驚くべき点は、これらが単なるモデルではなく、「AI システム」であるということです。

以前の推論モデルとの最大の違いは、さまざまなツールを初めてトレーニングするために使用されることです。彼らは CoT でこれらのツールを使用して、困難な問題を解決します。

人間による最終試験では、o3 モデルは Deep Research のパフォーマンスに匹敵し、より高速であることがわかりました。

複雑な問題を解決するために、o3 は約 600 回のツール呼び出しを連続して使用しました。コードベースで実際に機能するコードスニペットを一度だけ生成します。

グレッグ氏は、最も評価しているのは彼らのソフトウェアエンジニアリング能力であると述べました。彼らは 1 回限りのコードを書くことができるだけでなく、実際のコードベースで実際に動作することができます。

たとえば、OpenAI コードベースの参照に関しては、Greg よりも優れた仕事をします。ここが非常に便利なところです。

また、命令追従やエージェントツールの利用状況の評価では、ツールと組み合わせたo3およびo4-miniの精度が最も高かった。

外部専門家による評価によると、o3 が現実世界のタスクを処理する場合、重大なエラー発生率は o1 よりも 20% 低いことが示されています。

このような大きな進歩の理由は、まさに RL における継続的なアルゴリズムの進歩によってもたらされています。 Greg 氏の言葉を借りれば、内部で最も驚くべきことは、現在まだトークンを予測しており、その後少し RL AI を追加して、ここまで到達したことです。

では、実際の運用プロセスにおいて、o3 はツールをどのように使用して複雑なタスクを解決するのでしょうか?

マルチモーダルチームの研究者 Brandon McKinzie は、2015 年に完成した物理学インターンシップポスターをアップロードし、ChatGPT に陽子の同位体スカラー電荷の数を推定するよう依頼しました。

o3 が推理を始める間、写真の内容を 1 つずつ分析し、ブランドンが尋ねる正しい質問の数を判断します。実際、最終結果はポスターのスクリーンショットには含まれていません。

その結果、o3 はインターネットで最新の見積もりを検索し、数秒で数十の論文を読むようになり、時間を大幅に節約しました。

結果は、モデルが非正規化値を計算し、それに特定の定数を乗算することで再正規化できることを示しています。最終結果は実際の値に比較的近くなります。

トレーニング後のチームの研究者であるエリック・ミッチェル氏は、ChatGPT のメモリー機能をオンにし、o3 に、自分の興味に関連する、しかしあまり人気のないニュースを見つけるように依頼しました。

o3 は、ダイビングや音楽の再生などの既存の知識に基づいて、関連性の高い興味深いコンテンツを見つけるためにツールを積極的に考え、使用しました。

たとえば、研究者たちは健康なサンゴの音を録音し、その録音をスピーカーで再生したところ、新しいサンゴや魚の定着が促進されました。

同時に、視覚的なデータを描画して、ブログ投稿に直接配置できるようにすることもできます。

言い換えれば、o3 は最先端の科学研究分野で使用される場合でも、モデルを日常のワークフローに統合する場合でも、非常に役立ちます。

AIME 数学コンテストの問題を解く際、o3 は 2x2 の正方形グリッドを見て、制約を満たす配色の数を数えるように依頼されました。

まずブルートフォースプログラムを生成し、それを Python インタプリタで実行して、82 という正しい答えを得ました。

それでも、その問題解決プロセスはエレガントでも簡潔でもありません。 O3 はこれを自動的に認識し、解決策を簡素化し、よりスマートな方法を見つけようとします。

また、回答の信頼性を自動的にチェックし、人間に簡単に説明できるように最後にテキストによる解決策も表示します。

研究者らを驚かせたのは、o3 のトレーニング中に同様の戦略が使用されておらず、簡略化が必要なかったことです。すべてAIの自律学習によって完成しました。

コーディング作業では、研究者らは o3-high に、シンボルと呼ばれるソフトウェアパッケージのバグを見つけるように依頼しました。

まず、モデルは命令を積極的にチェックして問題の問題が存在するかどうかを確認し、コードリポジトリの概要を取得しようとします。

次に、mro 内のクラス継承情報を解釈できる Python 構造を見つけ、既存の世界の知識に基づいて問題を見つけます。

最後に、o3 はインターネットを閲覧して最適なソリューション apply_patch を見つけました。

推論コストの点で、o3 と o4-mini はこれまでで最もインテリジェントなモデルであるだけでなく、o1 や o3-mini と比較して効率とコスト管理の点で新たなベンチマークを設定しました。

2025 年の AIME 数学コンペティションでは、o3 の推論コストとパフォーマンスは全体的に o1 よりも優れています。同様に、o4-mini のコストパフォーマンスも o3-mini よりも全体的に優れています。

したがって、小型で高速なマルチモーダル推論モデルが必要な場合は、o4-mini が最適な選択肢になります。

o3 と o4-mini は、数学、ビジネス、科学、スポーツ、視覚的推論など、問題を解決するためのツールを独自に選択し、方法を計画できます。

たとえば、スポーツの問題を解決する場合、o3 は最近のシーズンと、リーグ防御率がわずかに増加した後に通常に戻る 2022 ～ 23 シーズンを考慮した最新データをオンラインで取得できます。

o1 によって与えられるデータは近似値であり、わずかに偏りがあり、十分な精度がありません。さらに、ベースパッドの拡張とピン数の制限というより直接的な理由を無視して、盗塁の増加がすべてピッチタイマーによるものであると誤って信じています。

左または右にスワイプして表示します

イメージで考える、ビジュアル推論の新たな頂点

さらに驚くべきことは、o3 と o4-mini が視覚的推論において前世代を完全に上回り、o シリーズの最新の視覚的推論モデルになったことです。

彼らは、思考連鎖 (CoT) の画像を使って推論することにより、視覚認識における大きな進歩を達成しました。

OpenAI により、モデルは初めて、単に写真を見るのではなく、思考チェーンの中で画像を使用して考えることができるようになります。

初期の OpenAI o1 と同様に、o3 と o4-mini は応答する前に長く考えることができ、ユーザーに応答する前に長い思考の連鎖が内部で生成されます。

それだけでなく、o3 と o4-mini は思考プロセス中に写真を「見る」ことができます。この機能は、トリミング、拡大、回転、その他の単純な画像処理など、ユーザーがアップロードした画像を処理するツールによって実現されます。

さらに驚くべきことは、これらの機能はすべてネイティブであり、追加のプロフェッショナルモデルに依存する必要がないことです。

ベンチマークテストでは、Web ブラウジングに依存せずに画像で考えるこの機能により、前世代のマルチモーダルモデルのパフォーマンスが打ち砕かれました。

STEM の質問と回答 (MMMU、MathVista)、チャートの読み取りと推論 (CharXiv)、知覚プリミティブ (VLM はブラインド)、視覚検索 (V*) の分野で、o3 と o4-mini は SOTA 記録を樹立しました。

特に、V* ベンチマークテストでは、2 つのモデルは 96.3% の精度でこの課題をほぼ克服し、視覚的推論技術における大きな進歩を示しました。

ChatGPT の強化されたビジュアルインテリジェンスは、画像をより徹底的、正確、確実に分析し、より困難な問題の解決に役立ちます。

高度な推論と Web 検索、画像処理、その他のツールをシームレスに組み合わせて、写真を自動的に拡大、切り抜き、反転、最適化することができ、写真が完璧でなくても有用な情報を掘り出すことができます。

たとえば、経済学の宿題の写真をアップロードして段階的な答えを入手したり、プログラムエラーのスクリーンショットを共有して問題の根本原因をすばやく見つけることができます。

このアプローチは、視覚的推論とテキスト推論を完全に統合して、テスト時の計算を拡張する新しい方法を開きます。

これは、マルチモーダルベンチマークにおける最高のパフォーマンスに反映されており、マルチモーダル推論の重要な前進を示しています。

視覚的推論の実践

画像で考えると、ChatGPT との対話が容易になります。

オブジェクトの配置を気にすることなく、直接写真を撮って質問することができます。テキストが逆さまであっても、1 枚の写真に複数の物理学の質問が含まれていても問題ありません。

一見して何かが明確でない場合でも、視覚的な推論により、モデルをズームインして詳細を確認することができます。

たとえば、テーブルの上にほぼ目の高さに置かれたノートには、ぼやけた文字が 2 行書かれており、人がそれを直接認識するのは困難です。

ChatGPTでは画像を拡大して見ることができます。文字が逆さまであることを発見すると、回転も行い、最終的に認識に成功します。

上下にスワイプして表示します

OpenAI の最新のビジュアル推論モデルは、Python データ分析、Web 検索、画像生成、その他のツールと併用して、より複雑な問題を創造的かつ効率的に解決でき、ユーザーに初めてマルチモーダルなインテリジェントエクスペリエンスをもたらします。

プログラミングエージェント Codex CLI は完全にオープンソースです

次に、OpenAI は、コーデックスのレガシーの継続を実証し、プログラミングの未来を定義する一連のアプリケーションをリリースすると述べました。

OpenAI は、新しいモデルに加えて、端末上で実行できる軽量のプログラミング AI エージェントである Codex CLI という新しい実験ツールもオープンソース化しました。

その役割は、必要な場所にコード実行を安全にデプロイすることです。

これはローカルコンピューター上で直接実行され、o3 や o4-mini などのモデルの強力な推論機能を最大限に活用するように設計されており、GPT-4.1 などのより多くのモデルの API 呼び出しを間もなくサポートする予定です。

スクリーンショットまたは低忠実度のスケッチをモデルに渡し、ローカルコードへのアクセスと組み合わせることで、コマンドラインからマルチモーダル推論の力を体験できます。

同時に、Codex CLI と OpenAI モデルを使用するプロジェクトをサポートするための 100 万ドルの助成プログラムも開始しました。

GitHub プロジェクトがリリースされると、Codex CLI は 3.3,000 個のスターを獲得し、高い反応率を示しています。

プロジェクトアドレス: https://github.com/openai/codex

現場では、OpenAI デモンストレーターはオンライン投稿を参照し、Codex と o4 Mini を使用してクールな画像から ASCII へのジェネレーターを作成しました。

スクリーンショットを撮ってターミナルにドラッグし、Codex に渡すだけです。

驚くべきことは、ツールを直接考えて実行する様子を実際に見ることができることです。

完了すると、Codex は ASCII HTML ファイルを作成し、解像度を制御するスライダーも生成しました。

言い換えれば、これからは、作業中のコードライブラリだけでなく、コンピュータ上のあらゆるファイルも Codex に入れることができるようになります。

このサイトでは、研究者らはウェブカメラ API の追加にも成功しました。

スケーリング強化学習は依然として効果的

OpenAI o3 の開発プロセスを通じて、研究者らはある現象を観察しました。大規模な強化学習も、GPT シリーズの事前トレーニング中に出現したルールに従います。つまり、「より多くのコンピューティングリソースを投資すればするほど、より良いパフォーマンスが得られる」ということです。

彼らはこのスケーリングパスに従い、今回は強化学習 (RL) に焦点を当て、トレーニングの計算量と推論段階での思考量 (または推論計算量) を一桁増加させました。その結果、大幅なパフォーマンスの向上が依然として観察されました。

技術レポート: https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

これは、モデルに「考える」ための時間がより多く与えられる限り、そのパフォーマンスが向上し続けることを証明します。

前世代の o1 と比較すると、o3 は同じレイテンシーとコストでより高いパフォーマンスを示します。さらに興味深いのは、長時間思考を許可するとパフォーマンスが上昇し続けることです。

さらに、OpenAI により、o3 と o4-mini は強化学習トレーニングを通じてツールの使用に関する知恵を習得でき、「使い方」を学ぶだけでなく、「いつ使用するか」も知ることができます。

ChatGPT の組み込みツールに完全にアクセスできるだけでなく、API の関数呼び出し関数を通じてユーザー定義ツールにもアクセスできます。

この機能により、オープンシナリオ、特に視覚的な推論と複数ステップのワークフローを必要とする複雑なタスクにおいてモデルの能力が向上します。

さらに、これまでの多くの事例から、モデルツールを呼び出す機能について重要な洞察が得られました。

事前にクローズドベータへの参加資格を得ていた大物たちは、o3 に衝撃を受けた。

特に臨床・医療分野ではその性能は驚異的です。診断分析であれ、治療提案であれ、一流の専門家によって書かれているようです。

科学的発見の加速、臨床上の意思決定の最適化、あるいは分野を超えたイノベーションに関する推論のいずれにおいても、o3 はこの変化のリーダーになりつつあります。

参考文献:

https://openai.com/index/ Thinking-with-images/

https://openai.com/index/introducing-o3-and-o4-mini/