MIT と MIT-IBM ワトソン人工知能研究所の研究者は、高解像度画像のリアルタイム セマンティック セグメンテーションを加速し、自動運転車などハードウェアが限られたデバイス向けに最適化されたコンピューター ビジョン モデルである EfficientViT を発表しました。
自動運転車は、街角に駐車されたアイドリング状態の配送トラックから交差点に向かって猛スピードで走ってくる自転車に至るまで、遭遇する物体を迅速かつ正確に識別する必要があります。
高解像度コンピューター ビジョン用の機械学習モデルにより、自動運転やエッジ デバイスでの医療画像のセグメンテーションなど、計算集約型のビジョン アプリケーションが可能になります。この写真は、アーティストによる自動運転技術の解釈を示しています。画像出典: MIT ニュース
これを実現するために、自動運転車は強力なコンピュータ ビジョン モデルを使用して、シーンの高解像度画像の各ピクセルを分類し、低品質の画像で遮蔽される可能性のあるオブジェクトが無視されないようにします。ただし、セマンティック セグメンテーションとして知られるこのタスクは複雑で、高い画像解像度で多くの計算を必要とします。
MIT、MIT-IBM ワトソン人工知能研究所、およびその他の機関の研究者は、このタスクの計算の複雑さを大幅に軽減する、より効率的なコンピューター ビジョン モデルを開発しました。彼らのモデルは、自動運転車の瞬時の意思決定を可能にする車載コンピューターなど、ハードウェア リソースが限られたデバイス上でセマンティック セグメンテーションをリアルタイムで正確に実行できます。
リアルタイム処理を最適化する
最近の最先端のセマンティック セグメンテーション モデルは、画像内のピクセルの各ペア間の相互作用を直接学習するため、計算量は画像解像度の 4 倍になります。このため、これらのモデルは正確ではありますが、センサーや携帯電話などのエッジ デバイスで高解像度の画像をリアルタイムで処理するには遅すぎます。
MIT の研究者は、これらの最先端のモデルと同じ機能を実現しながら、計算量が線形で、ハードウェア効率で動作するセマンティック セグメンテーション モデルの新しいビルディング ブロックを設計しました。
その結果、モバイル デバイスに導入すると、以前のモデルよりも最大 9 倍高速に動作する、高解像度コンピュータ ビジョン用の新しいモデル ファミリが誕生しました。重要なのは、この新しいモデル ファミリは、これらの代替モデルと同等以上の精度を示しているということです。
EfficientViT を使用すると、自動運転車はセマンティック セグメンテーションを効率的に実行できます。セマンティック セグメンテーションは、車が物体を正確に識別できるようにシーン内のすべてのピクセルを分類する高解像度のコンピューター ビジョン タスクです。写真は、オブジェクトの分類に使用されるさまざまな色を示すデモ ビデオの写真です。研究者提供の画像
ソリューションを詳しく見る
このテクノロジーは、自動運転車がリアルタイムで意思決定を行うのに役立つだけでなく、医療画像のセグメンテーションなど、他の高解像度コンピューター ビジョン タスクの効率も向上します。
「研究者は従来のビジョントランスフォーマーを長い間使用しており、目覚ましい成果を上げてきましたが、人々がこれらのモデルの効率面にも注目してほしいと願っています。私たちの研究は、計算負荷を大幅に削減できることを示しており、デバイス上でローカルにリアルタイムの画像セグメンテーションを実行できるようになりました。」電気工学およびコンピュータサイエンス学科(EECS)の准教授であり、MIT-IBM Watson AI Labのメンバーであり、新しいモデルを説明する論文の上級著者であるHan Song氏は次のように述べています。
また、論文の筆頭著者である電気工学・コンピュータサイエンス学科の大学院生である蔡漢氏、浙江大学の学部生である李君燕氏、清華大学の学部生である胡夢燕氏、MIT-IBMワトソン人工知能研究所の主任研究員である甘荘氏も一緒に論文を執筆している。この研究は、コンピュータビジョンに関する国際会議で発表される予定です。
簡素化されたソリューション
数百万のピクセルを含む高解像度画像内のすべてのピクセルを分類することは、機械学習モデルにとって困難な作業です。最近、ビジュアルコンバータと呼ばれる強力な新しいモデルが効果的に適用されています。
トランスフォーマーはもともと自然言語処理のために開発されました。この場合、文内の各単語をトークンとしてエンコードし、各トークンと他のすべてのトークンの間の関係をキャプチャするアテンション マップを生成します。このアテンション マップは、モデルが予測を行う際のコンテキストを理解するのに役立ちます。
同じ概念を使用して、ビジュアル トランスフォーマーは画像をピクセル パッチに分割し、各パッチをラベルにエンコードしてから、アテンション マップを生成します。このアテンション マップを生成するとき、モデルは類似度関数を使用してピクセルの各ペア間の相互作用を直接学習します。このようにして、モデルはいわゆるグローバル受容野を形成します。これは、モデルが画像の関連するすべての部分にアクセスできることを意味します。
高解像度の画像には数百万のピクセルが含まれ、数千のセグメントに分割されるため、アテンション グラフはすぐに非常に大きくなる可能性があります。したがって、画像の解像度が高くなると、計算量は 4 倍に増加します。
EfficientViT と呼ばれる新しいモデル ファミリでは、MIT の研究者は、アテンション マップを構築するためのより単純なメカニズムを採用し、非線形類似度関数を線形類似度関数に置き換えました。したがって、機能を変更したりグローバル受容野を失うことなく、演算の順序を再配置して、総計算量を削減できます。彼らのモデルでは、予測に必要な計算量は画像の解像度に比例して増加します。
「しかし、無料のランチはありません。直線的な注意では画像の世界的な背景しか捉えることができず、ローカルな情報が失われるため、精度が悪化します」とハン氏は述べた。精度の低下を補うために、研究者らはモデルに 2 つの追加要素を追加しましたが、それぞれの追加の計算量はわずかです。
コンポーネントの 1 つは、モデルが局所的な特徴の相互作用を捕捉し、局所的な情報抽出における線形関数の弱点を軽減するのに役立ちます。 2 番目の要素は、マルチスケール学習を実装するモジュールで、モデルが大小のオブジェクトを認識できるようにします。
Cai Han 氏は、「ここで最も重要なのは、パフォーマンスと効率のバランスを慎重にとる必要があるということです。」と述べました。彼らは、ハードウェアに優しいアーキテクチャで EfficientViT を設計し、VR ヘッドセットや自動運転車用のエッジ コンピューターなど、さまざまな種類のデバイスでの実行を容易にしました。これらのモデルは、画像分類などの他のコンピューター ビジョン タスクにも適用できます。
セマンティックセグメンテーションを簡素化する
セマンティック セグメンテーションに使用されるデータセットでモデルをテストしたところ、NVIDIA グラフィックス プロセッシング ユニット (GPU) 上でモデルが他の一般的なビジュアル トランスフォーマー モデルよりも 9 倍高速に実行され、精度も同等以上であることがわかりました。
「今では両方の長所を生かし、モバイルやクラウドデバイスで実行できるほど計算を遅くすることができるようになりました」とHan Song氏は語った。研究者らは、これらの結果に基づいて、新しい画像の生成に使用されるような生成機械学習モデルの高速化にこの技術を適用したいと考えています。彼らはまた、EfficientViT の応用を他の視覚タスクにも拡大し続けたいと考えています。
AMDの人工知能アルゴリズム担当シニアディレクターのLuTian氏は、「ハン・ソン教授のチームが開拓した効率的な変圧器モデルは、現在、検出やセグメンテーションなどのさまざまなコンピュータービジョンタスクにおける最先端技術のバックボーンとなっている。彼らの研究は、変圧器の効率と機能を実証するだけでなく、ビデオゲームの画質向上など、現実世界のアプリケーションにおけるその巨大な可能性も明らかにしている」と述べた。
「モデル圧縮と軽量モデル設計は、特に大規模な基本モデルにおいて、効率的な人工知能コンピューティングを実現するための重要な研究テーマです。Han Song 教授の研究グループは、最新のディープラーニングモデル、特にビジュアルトランスフォーマーの圧縮と高速化において大きな進歩を遂げました。」研究には関与していないOracleの人工知能および機械学習担当グローバルバイスプレジデント、ジェイ・ジャクソン氏は付け加えた。 「Oracle Cloud Infrastructureは、効率的で環境に優しい人工知能を実現するために、この影響力のある研究を進める彼のチームをサポートしてきました。」