本日、Alibaba は新世代の画像生成および編集モデルである Qwen-Image-2.0 を正式にリリースしました。Qwen-Image-2.0 は、Qianwen の大規模モデルの画像生成モデル ベースとして、画像の生成と編集を統合しています。 AI Arena画像生成評価では1029点を獲得し、Seedream4.5やFlux2-Maxなどのモデルを上回り、Google Nano Banana ProやGPT Image1.5に次ぐ2位となりました。
Qwen-Image-2.0 は、1K トークンの超長テキスト入力と 2K の高解像度をサポートします。複雑な指示を正確にレンダリングし、プロフェッショナルな PPT やインフォグラフィックを簡単に生成できます。プロの写真家に匹敵する品質です。同時に、Qwen-Image-2.0 は非常に強力な漢字レンダリング機能を備えており、数百の古文書の全文をほぼ完全に画像内にレンダリングできます。

Qwen-Image-2.0 は、Qwen-Image と Qwen-Image-Edit の 2 つの主要モデルに基づく新しいアップグレードです。初めて、画像の生成と編集が 1 つのモデルに統合されました。より軽量なモデル アーキテクチャにより、画像生成と画像変更のパフォーマンスが大幅に向上しました。
Qwen-Image-2.0 で生成される画像のテクスチャは特に繊細で、老人のシワから宇宙の広大さにまで及びます。モデルによって生成される人物、自然、建物などの一般的に使用される画像は、非常に本物そっくりです。
権威ある評価 AI Arena では、Qianwen の新しいモデルは画像生成で 1029 点を獲得し、3 位にランクされました。画像編集では Nano Banana Pro に次ぐ 1034 点を記録しました。

漢字のレンダリングに関しては、Qwen-Image-2.0 は非常に優れたパフォーマンスを発揮します。さまざまなフォントの漢字を正確にレンダリングできるだけでなく、多くの文字を正確に書くことができ、その効果は Nano Banana Pro よりも優れています。
Qianwen の新しいモデルは、入力プロンプトの単語を 1K トークンに拡張し、タスクを詳細に説明し、よりプロフェッショナルなテキスト レンダリングを実現し、プロフェッショナルな PPT、高度なポスター、マルチフレーム コミックなどの複雑な画像を簡単に処理できます。たとえば、「The Preface to the Lanting Collection」の全文イラストの数百語は、ほぼ完全に小さな楷書フォントでレンダリングされ、エッセイ形式のイラストを含む複雑な PPT が自然言語で生成されます。

Qwen-Image-2.0 モデルに基づいて、ユーザーは AI と協力して、一文でクンパオチキンを生成するフローチャート、杭州への 2 日間の旅行ガイド、4x6 のマルチフレーム漫画のグループ写真、子供の絵本の写真、リアルなスタイルの映画ポスター、非常にリアルな緑のジャングルなどの、より豊かで実用的な写真を作成できます。
同時に、ユーザーは編集のために複数の写真をアップロードして、複数のジェスチャーを含むセルフィー、実際の人物の絵文字、2人のリアルなAI写真、写真付きの詩などを生成することもできます。
