OpenAI、長時間実行タスク向けに設計された GPT‑5.1-Codex-Max プログラミングモデルを発表

OpenAI は本日、長時間実行タスク向けに設計された新世代のエージェントコーディングモデルである GPT‑5.1-Codex-Max をリリースしました。以前のモデルと比較して、GPT‑5.1-Codex-Max は「コンパクション」テクノロジーを使用しており、複数のコンテキストウィンドウにわたって機能し、単一タスクで数百万のトークンを確実に処理することもできます。 OpenAIは、このモデルはパフォーマンスを向上させるだけでなく、より高速かつ効率的なトークンの利用も実現すると述べた。

GPT-5.1-Codex-Max トレーニングプロセスは、PR 作成、コードレビュー、フロントエンド開発、質疑応答などの実際のソフトウェアエンジニアリングタスクをカバーし、多くの最先端のプログラミング評価で以前のモデルを上回るパフォーマンスを示していることがわかります。たとえば、このモデルは、SWE-Bench Verified (500 サンプル) で 77.9%、SWE-Lancer IC SWE 評価で 79.9%、および TerminalBench 2.0 評価で 58.1% のスコアを達成し、すべて GPT-5.1-Codex の以前のパフォーマンスよりも高かった。

GPT‑5.1-Codex-Max は、Unix プラットフォームのサポートに加えて、Windows 環境向けに特別にトレーニングされています。複雑な再構築や長時間実行されるエージェントループでは、市場のほとんどのコーディングモデルはコンテキストウィンドウによって制限され、継続的に動作することが困難です。一方、GPT‑5.1-Codex-Max は、ウィンドウ制限に近づくとセッションコンテンツを自動的に圧縮することで、数時間、さらには数十時間自律的に実行できます。 OpenAI の内部テストデータによると、このモデルは 24 時間以上連続して実行できます。

さらに、推論機能の向上により、GPT-5.1-Codex-Max は、SWE-Bench Verified で同じタスクを完了する際に、GPT-5.1-Codex よりも思考トークンの使用量が 30% 削減されました。「Extra High (xhigh)」推論モードを通じて、モデルは複雑なタスクにおいてより深い思考を行うことができます。

現在、GPT‑5.1-Codex-Max は Codex CLI、IDE 拡張機能、クラウドおよびコードレビュー製品でリリースされており、ChatGPT Plus、Pro、Business、Edu、Enterprise のプレミアムサブスクライバーユーザーをサポートしています。同時に、OpenAI も近い将来、このモデルを API に導入し、Codex のデフォルトモデルに置き換える予定です。