Appleの研究者は、ユーザーからの自然言語の指示に基づいて画像を編集できる新しいオープンソースの人工知能モデルをリリースした。 MGIE は MLLM-GuidedImageEditing の略称で、マルチモーダル大規模言語モデル (MLLM) を使用してユーザー要求を解釈し、ピクセルレベルの操作を実行します。
このモデルは、画像のあらゆる側面を編集できます。グローバルな写真の強化には、明るさ、コントラスト、シャープネスを含めたり、スケッチなどの芸術的な効果を適用したりできます。ローカル編集では、画像内の特定の領域やオブジェクトの形状、サイズ、色、テクスチャを変更できますが、Photoshop スタイルの変更には、トリミング、サイズ変更、回転、フィルターの追加、さらには背景の変更や画像のブレンドなどが含まれます。
ピザの写真に対するユーザーの入力は、「より健康的に見えるようにする」かもしれません。常識的な推論を使用すると、モデルはトマトやハーブなどの野菜材料を追加できます。グローバル最適化の入力リクエストは、「コントラストを増やし、より多くの光をシミュレートする」という形式にすることができますが、Photoshop スタイルの変更では、写真の背景から人物を削除し、画像の焦点を被写体の表情に移すようにモデルにリクエストすることができます。
Apple はカリフォルニア大学の研究者と協力して MGIE を作成し、2024 年の学習表現国際会議 (ICLR) で論文を発表しました。コード、データ、事前トレーニング済みモデルを含むモデルは GitHub で入手できます。
これは、Apple の人工知能研究におけるここ数カ月で 2 回目の画期的な進歩です。 Appleは12月下旬、革新的なフラッシュメモリ利用技術を発明することで、iPhoneやその他のメモリに制約のあるAppleデバイスへの大規模言語モデル(LLM)の導入が前進したことを明らかにした。
過去数か月間、Apple は ChatGPT と競合する可能性のある「AppleGPT」をテストしてきました。ブルームバーグのマーク・ガーマン氏によると、AIの取り組みはアップルにとって優先事項であり、同社は大規模な言語モデル用の「Ajax」フレームワークを設計しているという。
The Information とアナリストの Jeff Pu は、Apple が iOS 18 がリリースされる 2024 年末頃に、iPhone と iPad に何らかの生成人工知能機能を導入すると主張しています。 Gurman氏によると、iOS 18にはChatGPTのような生成AI機能を備えたSiriの強化版が含まれており、iPhone史上「最大の」ソフトウェアアップデートとなる可能性があるという。