ワシントン大学の研究者らは、複数の動く音源を自律的に位置特定し、特定し、追跡できる小型音声ロボットの群れのおかげで、騒がしい部屋のさまざまな部分を沈黙させたり、雑然とした環境での会話を隔離したりできるようになったと述べている。

私たち人間は、わずかに分散されたデュアルマイクアレイと耳によって提供されるオーディオシールドのおかげで、目を閉じていても音源を見つけることができます。しかし、オーディオ環境が複雑になると、物事が非常に混乱する可能性があります。これは、騒がしく、混雑した、エネルギーの高い空間(日曜日の朝のコーヒーショップなど)を探し、そこで会話をしようとする私たちの特異な傾向に反するものです。

このような雑然としたオーディオ空間では、個々の音源を分離して他の音源をミュートする唯一の方法は、より大きなマイク アレ​​イを配置し、すべてのオーディオ ストリームをまとめて処理して、各音の位置を三角測量し、音が空気中を伝わって各マイクに到達するまでのわずかな時間差を測定する空間マップを作成することです。その後、とらえどころのない深層学習アルゴリズムを使用してすべてのオーディオ ストリームを再処理し、音源ごとに独立したオーディオ ストリームを作成し、他の音源からすべてのノイズを除去できます。

ロボット マイク アレ​​イは、部屋内の複数の音源を特定して追跡することで、さまざまな音声エリアを分離してミュートすることができます。画像 / ワシントン大学

このアイデア自体は新しいものではありませんが、ワシントン大学の研究者らはこのコンセプトに新たなひねりを加え、それぞれがチョコレートトリュフほどの大きさの7台の小さな車輪付きマイクロボットの群れを使用し、充電ステーションから自律的に展開し、利用可能なスペース内に自己最適化アレイを作成します。

ロボットは内蔵マイクとスピーカーを使用してソナーを介してテーブルの表面を移動し、障害物を回避し、マイク間の時間差を最大化するためにできるだけ広く展開します。残念ながら、これはそれらを 1 つずつ移動する必要があることを意味しますが、一度配置されると、以下のビデオでわかるように、非常に驚​​くべきパフォーマンスを発揮します。

では、最終的な目標は何でしょうか?研究チームは、このようなロボットアレイは、会議室のライブブロードキャストなどにポータブルで自動的に展開される遮音マイクアレイとして使用でき、理論的には人間よりも自分の声を分散させることができると考えています。

研究チームによると、この機能は効率的に機能するものの、3 秒間の音声ブロックごとに処理するのに現在約 1.82 秒かかるため、双方向のビデオ通話ではあまり役に立たないという。レイテンシは、騒がしいカフェで会話の相手からヘッドフォンにきれいな音声を短時間でストリーミングできないことも意味します。ただし、両方のアプリケーションは、コンピューティング能力と速度が向上するにつれて可能になります。

もちろん、群衆の騒音によるマスキング効果を排除したり、プライベートな会話を録音したりする非常に便利な監視ツールにもなります。興味深いことに、ワシントン大学の研究チームは、それはまったく逆のことをする可能性があると言っています。

研究論文の共同筆頭著者である博士課程の学生マレック・イタニ氏は、「現在のスマートスピーカーで実現できる以上に、プライバシーに真の利益をもたらす可能性を秘めている」と述べた。 「『私のデスクの周りでは何も録音しないでください』と言うと、私たちのシステムは私の周りのすべてを記録します。」フィート (0.9 メートル)。このバブル内の内容は何も記録されません。または、近くで話している 2 つのグループがあり、一方のグループがプライベートな会話をしており、もう一方のグループが録音している場合、一方のグループの会話をミュート ゾーンに設定してプライベートなままにすることができます。

充電ステーションから解放された後、ロボットはソナーを使用して表面の周囲に分散し、最大限の空間隔離を実現します。

実際には、静的分散マイク アレ​​イはスマート ルームやスマート ホームの設計で使用され始める可能性があり、音声制御コマンドをさまざまなエリアに簡単に分離できます。たとえば、ソファからの音を聞くだけでテレビを操作したり、騒がしい会場でバーに立っている人の飲み物の注文を聞き出すこともできます。

論文はNature Communications誌に掲載された。