MIT の CSAIL は、拡散プロセスとポアソンプロセスを組み合わせた人工知能モデルである PFGM++ を導入しています。電場の挙動を再現することで注目に値する画像を生成し、生成人工知能の飛躍的な進歩を表します。物理学にインスピレーションを得た新しい生成モデル PFGM++ は、画像生成において拡散モデルを上回ります。生成人工知能は現在、最もホットな話題の頂点にあり、単純な分布が画像、音声、またはテキストの複雑なパターンに進化し、人工知能を驚くほど現実にする世界を作り出すことが約束されています。

MIT のコンピューター サイエンスおよび人工知能研究所 (CSAIL) の研究者が革新的な人工知能モデルに命を吹き込むにつれ、想像力の領域はもはや単なる抽象的な概念ではなくなりました。彼らの新しい技術は、これまでで最高のパフォーマンスを発揮する生成モデルの基礎となる 2 つの一見無関係な物理法則、つまり拡散 (通常、部屋に浸透する熱や空間に膨張するガスなどの要素のランダムな動きを説明する) とポアソン過程 (電荷の活動を支配する原理に基づく) を統合します。


この調和のとれたブレンドにより、Ezoic は既存の最先端モデルを超える新しいイメージの生成に優れています。 Poisson Flow Generative Model++ (PFGM++) は、その創設以来、抗体や RNA シーケンスの生成からオーディオ制作やグラフィックスの生成に至るまで、さまざまな分野で応用できる可能性を見出してきました。

モデルは、現実的な画像の作成や現実世界のプロセスの模倣など、複雑なパターンを生成できます。 PFGM++ は、昨年の研究の結果であるチームの PFGM に基づいて構築されています。 PFGM は、「ポアソン」方程式として知られる数式からインスピレーションを得て、それをモデルが学習しようとしているデータに適用します。これを行うために、チームは巧妙なトリックを使用しました。つまり、2 次元のスケッチから 3 次元のモデルに移行するのと同じように、モデルの「空間」に追加の次元を追加しました。この追加の次元により、より多くの操作余地が提供され、データがより大きなコンテキストに配置され、新しいサンプルを生成する際にあらゆる方向からデータにアプローチできるようになります。

マサチューセッツ工科大学核科学研究所の理論物理学センターの素粒子物理学者であり、国立科学財団人工知能・基本相互作用研究所(NSFAIIAIFI)所長のジェシー・セイラー氏は、「PFGM++は、人工知能の進歩を促進するための物理学者とコンピューター科学者の学際的協力の一例である。近年、人工知能に基づく生成モデルは、フォトリアリスティックな画像から無限の結果を生み出している」と述べた。特に、最も強力な生成モデルのいくつかは、対称性や熱力学などの物理学の実証済みの概念に基づいており、空間と時間に追加の次元が存在する可能性があるという概念を、合成かつ現実のデータセットを生成するための強力で堅牢なツールに変換しています。知性。」

PFGM の基本メカニズムは、思っているほど複雑ではありません。研究者らは、データポイントを、次元が拡張された世界の飛行機上の微小な電荷に例えています。これらの電荷は「電場」を生成し、力線を上って余分な次元に移動させ、巨大な想像上の半球全体に均一な分布を作り出します。生成プロセスは巻き戻しのようなものです。半球全体に均一に分布した電荷のセットから始まり、その進行を電力線に沿って平面に遡って追跡し、元のデータの分布と一致するように整列させます。この興味深いプロセスにより、ニューラル モデルは電場を学習し、元のデータと一致する新しいデータを生成できます。

PFGM++ モデルは、PFGM の電場を複雑な高次元フレームワークに拡張します。これらの次元を拡張し続けると、予期せぬことが起こります。モデルは別の重要なモデル、つまり拡散モデルに似てきます。仕事は適切なバランスを見つけることがすべてです。 PFGM モデルと拡散モデルはスペクトルの対極にあり、1 つは強力ですが扱いが複雑で、もう 1 つはシンプルですが堅牢性が劣ります。 PFGM++ モデルは、堅牢性と使いやすさの間の適切なバランスを見つけます。この革新により、画像とパターンのより効率的な生成への道が開かれ、この技術の重要な前進が示されました。研究者らは、サイズを調整できることに加えて、電場をより効率的に学習できる新しいトレーニング方法も提案しました。

この理論を実践するために、研究チームは電場におけるこれらの電荷の動きを詳しく説明する一対の微分方程式を解きました。彼らは、実際の画像と比較してモデルによって生成された画像の品質を評価するために広く受け入れられている指標である Frechette Inception Distance (FID) スコアを使用してそのパフォーマンスを評価しました。 PFGM++ はさらに、微分方程式のステップ サイズに対する高いエラー耐性とロバスト性を示します。

今後、彼らはモデルの特定の側面を改良することを目指しており、特にニューラルネットワークの推定誤差の挙動を分析して、特定のデータ、アーキテクチャ、タスクに合わせた D の「スイートスポット」値を系統的に特定することによって取り組んでいます。また、PFGM++ を現代の大規模なテキストから画像への生成、またはテキストからビデオへの生成に適用することも計画しています。

「拡散モデルは、生成型 AI 革命の重要な原動力となっています」と OpenAI の研究科学者、Yang Song 氏は述べています。 「PFGM++ は拡散モデルの強力な一般化を提供し、摂動や学習エラーに対する画像生成の堅牢性を向上させることで、ユーザーがより高品質の画像を生成できるようにします。さらに、PFGM++ は静電気と拡散モデルの間の驚くべき関係を発見し、拡散モデル研究に新しい理論的洞察を提供します。」

NVIDIA の上級研究員である Karsten Kreis 氏は、「ポアソン流生成モデルは、静電気学に基づいたエレガントな物理ヒューリスティック定式化に依存するだけでなく、実際に最先端の生成モデルのパフォーマンスを提供します。現在文献を支配している一般的な拡散モデルをも上回るパフォーマンスを発揮します。」と述べています。