4 月 9 日、ByteDance は大規模なネイティブ全二重音声モデルである Seeduplex を発表し、現在 Doubao アプリで完全に公開されています。このモデルは「聞きながら同時に話す」という新しいフレームワーク設計に基づいています。前世代の半二重エンドツーエンド音声モデルと比較して、聞くことと話すことを同時に行うリアルタイムのインタラクションを実現し、会話のリズム、自然さ、耐干渉性が向上します。

公式の紹介文によると、Seeduplex は、モデル アーキテクチャの革新とトレーニングの最適化を通じて、高同時実行下での遅れや安定性などのエンジニアリングの課題を克服しました。正確な干渉防止の観点から、このモデルは継続的に「聞き取り」、ユーザーがいる場所の音響環境を理解し、周囲の騒音や無関係な会話を正確に無視する機能を備えています。複雑なシナリオでは、半二重モデルと比較して、誤応答率と誤中断率が 50% 削減されます。動的な意思決定の観点から、このモデルは音声と意味論的な特徴を組み合わせて、ユーザーの意図を包括的に判断します。ユーザーが躊躇しているときは辛抱強く耳を傾け、ユーザーが話し終えた後はすぐに応答します。半二重モデルに比べてプリエンプティブコールの割合が40%削減され、意思決定性能が8%向上しました。

多面的な評価により、会話の流暢さとリズムの点で、Seeduplex が従来の半二重ソリューションや業界の主流アプリの音声通話機能よりも大幅に優れていることがわかりました。このモデルは業界で初めて大規模実装を実現し、数億人のユーザーに継続的な高品質のリアルタイム音声インタラクション エクスペリエンスを提供できます。