OpenAI は本日、長時間実行タスク向けに設計された新世代のエージェント コーディング モデルである GPT‑5.1-Codex-Max をリリースしました。以前のモデルと比較して、GPT‑5.1-Codex-Max は「コンパクション」テクノロジーを使用しており、複数のコンテキスト ウィンドウにわたって機能し、単一タスクで数百万のトークンを確実に処理することもできます。 OpenAIは、このモデルはパフォーマンスを向上させるだけでなく、より高速かつ効率的なトークンの利用も実現すると述べた。

GPT-5.1-Codex-Max トレーニング プロセスは、PR 作成、コード レビュー、フロントエンド開発、質疑応答などの実際のソフトウェア エンジニアリング タスクをカバーし、多くの最先端のプログラミング評価で以前のモデルを上回るパフォーマンスを示していることがわかります。たとえば、このモデルは、SWE-Bench Verified (500 サンプル) で 77.9%、SWE-Lancer IC SWE 評価で 79.9%、および TerminalBench 2.0 評価で 58.1% のスコアを達成し、すべて GPT-5.1-Codex の以前のパフォーマンスよりも高かった。

GPT‑5.1-Codex-Max は、Unix プラットフォームのサポートに加えて、Windows 環境向けに特別にトレーニングされています。複雑な再構築や長時間実行されるエージェント ループでは、市場のほとんどのコーディング モデルはコンテキスト ウィンドウによって制限され、継続的に動作することが困難です。一方、GPT‑5.1-Codex-Max は、ウィンドウ制限に近づくとセッション コンテンツを自動的に圧縮することで、数時間、さらには数十時間自律的に実行できます。 OpenAI の内部テスト データによると、このモデルは 24 時間以上連続して実行できます。

さらに、推論機能の向上により、GPT-5.1-Codex-Max は、SWE-Bench Verified で同じタスクを完了する際に、GPT-5.1-Codex よりも思考トークンの使用量が 30% 削減されました。 「Extra High (xhigh)」推論モードを通じて、モデルは複雑なタスクにおいてより深い思考を行うことができます。

現在、GPT‑5.1-Codex-Max は Codex CLI、IDE 拡張機能、クラウドおよびコード レビュー製品でリリースされており、ChatGPT Plus、Pro、Business、Edu、Enterprise のプレミアム サブスクライバー ユーザーをサポートしています。同時に、OpenAI も近い将来、このモデルを API に導入し、Codex のデフォルト モデルに置き換える予定です。