Microsoft がオープンソースの新しいタンパク質生成人工知能 EvoDiff

タンパク質は、体内で重要な細胞機能を実行する天然の分子であり、すべての病気の構成要素です。タンパク質の特性を解析することで、病気の進行を遅らせたり逆転させたりする方法など、病気のメカニズムを明らかにすることができます。一方、タンパク質を作成することは、まったく新しい薬や治療法の開発につながる可能性があります。

アクセス：

Microsoft 中国公式モール-ホームページ

しかし、研究室でタンパク質を設計する現在のプロセスは、計算量と人的資源の観点から見て高価です。それには、体内で特定の役割を果たすタンパク質の構造を考え出し、その構造に「折り畳まれる」可能性のあるタンパク質配列（タンパク質を構成するアミノ酸の配列）を見つける必要があります。 (タンパク質は、意図した機能を発揮するために、正しく折りたたまれて三次元形状になる必要があります)。

これほど複雑である必要はありません。

今週、Microsoftは、タンパク質配列に基づいて「高忠実度」で「多様な」タンパク質を生成できると同社が主張する一般的なフレームワークであるEvoDiffを発表した。他のタンパク質生成フレームワークとは異なり、EvoDiff はターゲットタンパク質の構造情報を必要としないため、通常最も手間のかかるステップが省略されます。

Microsoft の上級研究員 Kevin Yang 氏は、EvoDiff がオープンソース化されれば、新しい治療法や薬物送達方法のための酵素、さらには工業用化学反応のための新しい酵素の作成に使用できると述べています。

「私たちのビジョンは、EvoDiffが構造機能パラダイムを超えてプログラマブルで配列優先の設計に向けてタンパク質工学の能力を拡張することです」と、EvoDiffの共同開発者の1人であるYang氏は電子メールインタビューでTechCrunchに語った。「EvoDiff を使用して、新しいタンパク質を制御可能に設計するには、実際には構造が必要ではなく、むしろ『必要なのはタンパク質配列だけ』である可能性があることを実証しました。」

EvoDiff フレームワークの中心となるのは、すべての異なる種および機能クラスのタンパク質からのデータに基づいてトレーニングされた 640 パラメーターのモデルです。 (パラメーターは AI モデルがトレーニングデータから学習するものであり、本質的に問題を処理するモデルのスキル (この場合はタンパク質の生成) を定義します。) モデルをトレーニングするためのデータは、配列アライメントの OpenFold データセットと、UniProt データセットのサブセットである UniProt コンソーシアムによって維持されるタンパク質配列と機能情報のデータベースである UniRef50 から取得されます。

EvoDiff は、安定拡散や DALL-E2 などの多くの最新の画像生成モデルと構造が似ている拡散モデルです。 EvoDiff は、ほぼ完全にノイズで構成される開始タンパク質から徐々にノイズを差し引くことを学習し、ゆっくりと段階的にタンパク質配列にアプローチできるようにします。

EvoDiff がタンパク質を生成するプロセス。

拡散モデルは、新しいタンパク質 (EvoDiff など) の設計から音楽の作曲、さらには音声合成に至るまで、画像生成を超えた領域でますます使用されています。

「[EvoDiff から得られる点が 1 つあるとすれば、多用途性、スケール、モジュール性が可能になるため、配列からタンパク質を生成できる、そして生成すべきであるということだと思います」と、もう 1 人の EvoDiff 共同寄稿者で Microsoft の上級研究員である Ava Amini 氏は電子メールで述べました。「私たちの拡散フレームワークにより、これが可能になるだけでなく、特定の機能的目標を達成するためにこれらのタンパク質がどのように設計されるかを制御することも可能になります。」

アミニ氏の指摘によれば、EvoDiff は新しいタンパク質を作成するだけでなく、既存のタンパク質設計の「ギャップ」も埋めることができます。たとえば、タンパク質の特定の部分が別のタンパク質に結合する場合、モデルは、一連の基準を満たすその部分の周囲のタンパク質のアミノ酸の配列を生成できます。

EvoDiff はタンパク質の構造ではなく「配列空間」でタンパク質を設計するため、最終的に最終的な三次元構造に折り畳むことができない「無秩序なタンパク質」を合成することもできます。正常に機能するタンパク質と同様に、障害のあるタンパク質は、他のタンパク質の活性を増強または低下させるなど、生物学や疾患において重要な役割を果たします。

EvoDiff の背後にある研究は、少なくともまだ査読されていないことを指摘することが重要です。このプロジェクトに携わるマイクロソフトのデータサイエンティストであるサラ・アルAMDari氏は、このフレームワークが商用利用される前に「まだ多くの拡張作業が必要である」と認めた。

「これは単なる 6 億 4,000 万パラメータのモデルですが、これを数十億のパラメータにスケールアップすれば、生成の品質が向上する可能性があります」とアラムダリ氏は電子メールで述べた。「私たちはいくつかの粗い戦略を実証しましたが、より細かい制御を実現するために、テキスト、化学情報、または目的の機能を指定するその他の手段に基づいて EvoDiff を条件付けしたいと考えています。」

次に、EvoDiff チームは、研究室で生成されたタンパク質でモデルをテストし、機能するかどうかを確認する予定です。それがうまくいけば、彼らは次世代フレームワークの開発に着手するだろう。