OpenAI が新世代のイメージモデルをリリース gpt-image-1.5

OpenAI は本日、新しい画像生成モデル gpt-image-1.5 を正式に開始しました。これは、AI 画像生成分野での競争力を強化するために、明らかに Google Gemini システムの下で待望の Nano Banana シリーズをターゲットとしています。この新しいモデルは開発者と一般ユーザーの両方に公開され、ChatGPT の画像生成機能を完全に引き継ぎます。

今年3月、OpenAIはChatGPTの画像生成機能を大幅にアップグレードした。新しいモデルは発売されるとすぐに人気になりました。 1 週間以内に、ユーザーは ChatGPT で 7 億以上の画像を生成しました。そして 4 月、OpenAI は gpt-image-1 インターフェイスをリリースすることで、同世代の画像テクノロジーを開発者に公開し、画像生成機能をさまざまなアプリケーションやサービスに統合できるようにしました。

しかし、9月にデビューしたGoogle Gemini Nano Bananaモデルはすぐに話題と市場を掌握した。より強力な画像生成と編集パフォーマンスにより、Gemini のユーザー範囲が大幅に増加しました。 Nano Banana は、画質と編集の柔軟性の点で gpt-image-1 よりも総合的に優れていると考えられており、世界中の開発者に広く採用されています。先月、Googleはこれに基づいてGemini 3 Pro Image（開発コード名Nano Banana Pro）を発表し、Geminiの推論と現実世界の知識における利点を活用して、生成された画像の精度と一貫性をさらに向上させました。

このような背景のもとに発売された gpt-image-1.5 は、OpenAI によって、Gemini Nano Banana シリーズと直接競合する新世代のコア製品とみなされています。新モデルでは、画像編集の高度化と、ブランドロゴや顔などの主要要素の忠実性が大幅に向上しました。また、ユーザーの指示をより正確に理解して実行できます。 OpenAIはまた、新しいモデルにより画像内のテキストの処理、特に高密度のテキストや小さなフォントサイズのテキストの明瞭さと正確さが大幅に強化されたことを強調した。

開発者にとって、コストの最適化は gpt-image-1.5 のハイライトです。前世代の gpt-image-1 と比較して、新しいモデルは画像の入出力の料金が約 20% 安くなります。開発者は品質パラメーターを通じて生成コストを引き続き細かく制御でき、OpenAI は、新しいモデルは低品質設定でも強力な生成効果を維持できると主張しています。

一般ユーザーにとって、gpt-image-1.5 は ChatGPT の組み込み画像生成エクスペリエンスの基礎となるエンジンとなっています。 OpenAIによれば、このモデルは照明や構図、キャラクターの特徴などのディテールを基本的に変えずに、精密な編集を行うことができるという。前世代と比較して最大4倍のパフォーマンス向上を実現し、生成・編集の応答速度も速くなりました。

新しいモデルに関連して、OpenAI は ChatGPT に新しい「画像」画像エリアを立ち上げ、モバイルアプリケーションと Web バージョンで同時にオープンしました。ユーザーは、プリセットフィルターとプロンプトワードを使用して、この領域での画像生成をすぐに開始できます。これらのプリセットは、最新のクリエイティブスタイルとトレンドに従って定期的に更新されます。 OpenAI は、新しい画像生成モデルと ChatGPT 画像エクスペリエンスがすべての ChatGPT ユーザーに段階的にプッシュされ、将来的には使いやすさと作成効率を繰り返していくと述べました。