Apple で働く研究者とコロンビア大学の研究者は、画像領域を使用してクエリできる「Ferret」と呼ばれる研究バージョンであるオープンソース マルチモーダル LLM を 10 月に密かに発表しました。 Ferret は 10 月に Github でほとんど注目されることなくリリースされ、一般公開やプロモーション活動も行われませんでした。 Ferret のコードは 10 月 30 日に Ferret-Bench とともにリリースされ、チェックポイント バージョンは 12 月 14 日にリリースされました。
当初はあまり注目されなかったが、土曜日のリリースは人工知能研究者にとって大きな話題になったとVentureBeatは報じた。 AIベースの医療非営利団体を運営するバート・デウィット氏は、Xに「見逃した」バージョンについて投稿し、これを「影響力のあるAI研究に対するAppleの取り組みの証拠」と呼んだ。
Ferret のオープンソース リリースは非営利ライセンスに基づいているため、このままでは商用化できません。ただし、将来の Apple 製品やサービスで何らかの形で使用される可能性は常にあります。
Apple AI/ML 研究科学者 Gan Zhe 氏は 10 月のツイートで、Ferret の目的を、画像内の「あらゆるものを、どこにでも、あらゆる粒度で参照および配置できる」システムであると説明しました。画像内の任意の形状領域を使用してこれを行うこともできます。
簡単に言うと、モデルは画像上に描画された領域を分析し、その中のユーザーのクエリに役立つ要素を特定し、検出された要素の周囲に境界ボックスを描画します。その後、識別された要素をクエリの一部として使用し、通常の方法で応答できます。
たとえば、画像内の動物を強調表示し、LLM にそれが何の動物であるかを尋ねることで、LLM は動物の種類を特定し、ユーザーがグループ内の動物について言及しているかどうかを判断できます。その後、画像内で検出された他の項目のコンテキストを使用して、さらなる応答を提供できます。
この発表は、Appleがこれまでのような不可解な姿勢をとらず、AIの取り組みについてもっとオープンにしたいと考えていることを示すものであるため、研究者にとって重要である。
Apple にとってインフラストラクチャも問題です。Apple は自社の AI サーバーの数を増やすことに取り組んでいますが、ChatGPT などと競合するのに十分な規模をまだ持っていない可能性があるためです。 Apple は他の企業と提携して機能を拡張することもできますが、もう 1 つの道は、先ほどと同じことをしてオープンソース モデルをリリースすることです。
Github に投稿された情報で興味深い観察が見つかります。 Redditのr/Appleは、Ferretが「8つのA100 GPUと80GBのメモリでトレーニングされた」ことを発見した。 Apple が NVIDIA GPU をサポートしてきた歴史を考えると、これは GPU メーカーにとって珍しい承認であると考えられます。