Google は、Gemini 3.1 シリーズの新しいテキスト読み上げモデル Gemini‑TTS の発売を発表しました。これは、「これまでで最も表現力豊かなテキスト読み上げソリューション」と公式に説明されています。新しいモデルは、自然な響きの忠実度の高い音声を生成できると同時に、開発者がナレーションや会話のトーン、間、感情の変化を正確に調整するなど、プロンプトを通じて感情、リズム、話し方のスタイルを制御できるようにします。

多言語サポートの点で、Gemini‑TTS は中国語 (北京語)、英語、スペイン語、ドイツ語、日本語、その他の主流言語を含む約 70 の言語をカバーしています。このモデルは、言語タイプを手動でマークすることなく、入力テキストの言語を自動的に検出し、対応する音声を生成できます。この機能により、開発者や企業は統合された API セットを使用して、オーディオブック、ポッドキャスト、音声アシスタント、カスタマー サービス ロボット、教育アプリケーションなどのシナリオで多言語音声コンテンツを世界中のユーザーに提供できるようになります。
Google はまた、Gemini‑TTS が Gemini 3.1 シリーズの他のオーディオ モデル (Gemini 3.1 Flash Live など) と連携して、「リアルタイム音声体験」の機能をさらに強化していることも強調しました。リアルタイムの対話、音声翻訳、マルチモーダル インタラクションでは、システムはテキスト プロンプトやオーディオ マーカーを通じて音声出力を細かく制御しながら低遅延を維持できるため、電話、会議、ナビゲーションなどのシナリオで AI エージェントが人間の自然な音声インタラクションに近づけることができます。