専門家は最近、リアルタイム音声ディープ偽造技術が成熟し、新たなネットワーク セキュリティ リスクをもたらしていると警告しました。オープンソース AI ツールと手頃な価格のハードウェアが広く利用できるようになったことで、攻撃者は人工知能を使用してリアルタイムの会話で誰かの声を偽装したり模倣したりすることができ、事前に録音されたコンテンツしか処理できなかったり、長い処理時間を必要としたこれまでの技術的限界を突破したりできます。

サイバーセキュリティ企業NCC Groupの新たな研究では、AI音声モデルと通常のラップトップまたはスマートフォンを組み合わせることで、わずか0.5秒の遅延で高品質なリアルタイム音声模倣が実現できることが示された。オペレーターは、カスタム Web インターフェイス上で簡単な操作で音声クローン作成を開始できます。この「ディープフェイク音声フィッシング」攻撃手法は、低構成のグラフィックスカードでも完了でき、一般的なデバイスのマイクでも十分リアルな効果が得られます。
従来の音声ディープフォージェリ技術は通常、音声データのトレーニングに長時間を要し、事前に録音されたクリップしか生成できず、リアルタイムの対話には適していません。この画期的な進歩により、音声模倣プロセスにおける一時停止や無反応が完全に排除され、攻撃の効率と隠蔽性が大幅に向上します。 NCC グループのセキュリティ コンサルタントは、実際のテストで、発信者 ID のスプーフィングと組み合わせると、このタイプの攻撃がほぼ毎回ターゲットを欺く可能性があり、電話音声認証のなりすましのリスクが大幅に増加することを発見しました。
リアルタイム音声のディープ偽造はますます現実的になってきていますが、同レベルのリアルタイムビデオのディープ偽造には依然として技術的な障害があり、顔の表情と音声が同期していないなど、簡単に検出できます。たとえば、専門家らは、ある企業はAIのフェイクビデオでだまし取られ、ラップトップを間違った住所に送ったこともあり、音声通話やビデオ通話だけでは身元確認のセキュリティを確保できないことを示していると述べた。
人工知能ツールの普及が進むにつれ、専門家らは、ディープフェイクによるソーシャルエンジニアリング攻撃を防ぐために、独自の構造化信号や秘密コードを通信に追加するなど、より高度なリモート検証方法を求めている。そうしないと、個人も組織も AI 偽造詐欺のリスクが高まることになります。