木曜日、OpenAI は新世代の基本モデル GPT‑5.4 を正式にリリースし、これを「これまでで最も強力で効率的な、プロフェッショナルな仕事のための最先端のモデル」と位置づけています。 OpenAI は、標準バージョンに加えて、複雑な推論機能を重視した GPT‑5.4 Thinking と、高性能アプリケーション シナリオを対象とした GPT‑5.4 Pro の 2 つのバージョンを同時にリリースしました。

モデル機能の点では、GPT‑5.4 の API バージョンは最大 100 万トークンのコンテキスト ウィンドウをサポートしており、これは OpenAI によって以前に提供されていたモデルをはるかに上回っており、長いドキュメント、複雑なプロジェクト、または複数ラウンドのタスクなどの長いチェーン ワークフローを処理するのに有益です。 OpenAIはまた、トークンの使用効率の向上も強調し、GPT-5.4は前世代モデルと同じ難易度のタスクを大幅に少ないトークンで完了できるため、コストと応答速度の面で利点が得られると述べた。

最新のベンチマーク テストの結果では、OSWorld‑Verified と WebArena Verified の 2 つの「コンピュータ操作」シナリオ テストで新記録を樹立したこと、OpenAI 独自のナレッジ ワーク評価セット GDPval で最高スコア 83% を達成したことなど、GPT‑5.4 が複数の信頼できる評価で大幅なリードを達成したことが示されています。 GPT‑5.4 は、法律や財務などの専門スキルに関してスタートアップの Mercor が設定した APEX‑Agents ベンチマークでも 1 位にランクされました。

Mercor CEO の Brendan Foody 氏は声明の中で、GPT‑5.4 は「最高のパフォーマンスを維持しながら、同等の最先端モデルよりも高速かつ低コストで」プレゼンテーション、財務モデル、法的分析などの長期的な成果物を作成することに優れていると述べました。

信頼性の面では、GPT‑5.4 は「幻想」と事実上の誤りを減らすという OpenAI の研究開発の方向性を継続しています。公式の内部評価結果によると、GPT-5.2 と比較して、新しいモデルでは単一ステートメントのレベルでエラーの確率が 33% 減少し、回答全体でのエラーの確率が 18% 減少しました。

このリリースには、重要な API レイヤーの変更も含まれています。OpenAI は、Tool Search と呼ばれる新しいツール呼び出しメカニズムを起動します。古いソリューションでは、システム プロンプトは、使用可能なすべてのツールの定義をモデルに一度に挿入する必要がありました。ツールの数が増えると、プロンプトのこの部分自体が大量のトークンを占めるようになります。新しいツール検索により、モデルはオンデマンドでツール定義をクエリできるため、ツール サイズが大きいシステムのオーバーヘッドが大幅に削減され、呼び出しが高速化され、コストが削減されます。

OpenAI は安全性と制御性に重点を置き、今回は複数ステップのタスクにおけるモデルの「思考連鎖」パフォーマンスをテストするための新しい安全性評価を追加しました。研究者らは、推論機能を備えたモデルが連鎖思考プロセス中に真の推論経路を「偽装」したり、隠したりする可能性があることを長年懸念してきた。これまでの研究では、特定の条件下ではこれが実際に発生する可能性があることが示されています。 OpenAI によって与えられた新しい評価結果は、GPT-5.4 Thinking のバージョンでは、そのような「欺瞞的な」パフォーマンスが発生する可能性がさらに低いことを示しています。 「これは、このモデルには推論プロセスを積極的に隠す機能が欠けており、思考連鎖の監視が依然として効果的なセキュリティ ツールであることを示しています。」

GPT‑5.4 とその Pro バージョンと Thinking バージョンの同時リリースを通じて、OpenAI はプロフェッショナルの生産性、コスト効率、セキュリティの制御性の間で新たなバランスを見つけようとしており、法律、金融、ナレッジワークなどの高価値のシナリオに大規模モデルをさらに推し進めています。