OpenAI、DALL-E 人工知能ビジョンの第 3 バージョンをリリース model

OpenAI は、生成人工知能ビジュアルアートプラットフォーム DALL-E の第 3 バージョンをリリースしました。これにより、ユーザーは ChatGPT を使用してプロンプトを作成できるようになり、より多くのセキュリティオプションが含まれています。 DALL-E はテキストプロンプトを画像に変換します。しかし、DALL-E2 でさえ間違いを犯し、特定の文言を見落とすことがよくあります。 OpenAIの研究者らは、最新バージョンではコンテキストをよりよく理解できると述べている。

DALL-E3 の新機能は、ChatGPT との統合です。 ChatGPT を使用すると、ユーザーは DALL-E3 をガイドするための詳細なプロンプトを自分で作成する必要がなくなります。 ChatGPT にプロンプトを作成するよう依頼するだけで、チャットボットは DALL-E3 が従う段落 (DALL-E は長い文を使用するのが得意です) を作成します。 DALL-E に関する特別なアイデアがある場合は、他のユーザーも独自のヒントを使用できます。

DALL-E は、StabilityAI や Midjourney の他のテキストから画像への生成 AI アートプラットフォームに先駆けて、2021 年 1 月に初めてリリースされました。 DALL-E2が2022年にローンチされるまでに、OpenAIは、DALL-Eがリアルに露骨な画像を生成し、生成する写真にバイアスが見られるという批判のなか、誰がプラットフォームを使用できるかを制御する待機リストを開設した。同社は昨年9月に待機リストを解消し、DALL-E2を一般公開した。

DALL-E の新バージョンは、まず 10 月に ChatGPTPlus と ChatGPTEnterprise ユーザーにリリースされ、続いて秋に研究所とその API サービスにリリースされます。 OpenAIはDALL-E3のリリースをずらす計画だが、無料の公開バージョンがいつリリースされるかについては明らかにしていない。

OpenAIは、わいせつな画像や潜在的に嫌悪感を与える画像の作成を防ぐための強力なセキュリティ対策を作成することに重点を置き、DALL-E3に関して広範な作業を行ったと主張している。 OpenAIによると、同社は外部のレッドチーム（システムのセキュリティをテストするために意図的にシステムを侵害しようとするグループ）と協力しており、明示的なプロンプトやブルートフォースプロンプトを避けるために特定の単語を無視するように言語モデルに教える方法である入力分類子に依存しているという。 DALL-E3 は、プロンプトで名前が明示的に言及されている場合に限り、著名人の画像を再現することもできません。

同社の政策研究者であるサンディニ・アガルワル氏は、同社のセキュリティ対策に「非常に自信を持っている」と述べたが、モデルは常に改善されており完璧ではないと明言した。 OpenAIの代表者は電子メールで、DALL-E3は生きているアーティストのスタイルの画像を生成しないように訓練されていると述べた。 DALL-E2 とは異なり、DALL-E2 はプロンプトに応じて特定のアーティストのアートスタイルを模倣できます。

おそらく訴訟の可能性を避けるため、OpenAI ではアーティストが自分のアートワークをテキストから画像への AI モデルの将来のバージョンから除外することも選択できるようになります。クリエイターは、著作権を所有する画像を送信し、サイト上のフォームに記入して削除をリクエストできます。このようにして、DALL-E の将来のバージョンでは、アーティストのイメージやスタイルに似た結果をブロックできます。アーティストらは、DALL-Eの競合企業であるStabilityAIとMidjourney、およびアートWebサイトDeviantArtを訴え、著作権で保護された作品をテキスト画像モデルのトレーニングに使用したとして告訴した。