OpenAI、聞きながら「考え」、翻訳、文字起こしできる 3 つのリアルタイム音声モデルを起動

OpenAI は本日、開発者向けに「新世代の音声アプリケーションフォームのロックを解除する」ことを目的として、3 つの新しいリアルタイム音声モデルをリリースしました。これら 3 つの音声インテリジェンスモデルは、推論対話、リアルタイム翻訳、リアルタイム文字起こしなど、さまざまなシナリオのニーズに焦点を当てています。

OpenAIが公開した情報によると、新シリーズにはGPT‑Realtime‑2、GPT‑Realtime‑Translate、GPT‑Realtime‑Whisperの3つのモデルが含まれています。その中で、GPT‑Realtime‑2 は、GPT‑5 レベルの推論機能を備えた最初の音声モデルとして位置付けられており、複雑なリクエストをより適切に処理し、より自然な方法で会話を進め続けることができます。公式の紹介によると、このモデルはリアルタイムの音声対話用に特別に構築されています。ユーザーが質問したり指示を出したりするとき、一貫した会話を維持しながら推論を行うことができます。同時に、ツールを呼び出し、ユーザーの中断や修正に対処し、現在の状況に基づいてより適切な対応を行うこともできます。

2 番目のモデルである GPT‑Realtime‑Translate は、リアルタイム翻訳機能に焦点を当てており、「70 を超える入力言語と 13 の出力言語」をサポートし、翻訳プロセス中に話者の話す速度に追いつくように努めます。この機能により、このモデルは、言語を超えた通話、会議、生放送などのシナリオにおいて、より「同時通訳」に近い体験を提供することが期待されます。

3 番目の GPT‑Realtime‑Whisper は、低遅延の音声テキスト変換機能に焦点を当てたリアルタイムストリーミング音声文字起こしモデルです。 OpenAIによると、このモデルは話者が話している間に即座に文字起こしを完了できるため、さまざまなリアルタイム製品がより高速で、より応答性が高く、より自然に見えるようになるという。「話しながら話す」ライブ字幕から、議論のペースに追いつくことができる会議記録まで、そのようなアプリケーションシナリオは GPT-Realtime-Whisper の主な方向性とみなされます。

アクセス方法と価格に関して、OpenAIは、3つの新しい音声モデルがリアルタイムAPIシステムに含まれていると述べた。 GPT‑Realtime‑2 の価格は、100 万オーディオ入力トークンあたり 32 ドル (キャッシュされた入力トークンの場合は 0.40 ドル)、100 万オーディオ出力トークンあたり 64 ドルです。 GPT‑Realtime‑Translate の料金は 1 分あたり 0.034 ドル、GPT‑Realtime‑Whisper の料金は 1 分あたり 0.017 ドルです。

OpenAI は、開発者が Playground を通じてこれらの新しいリアルタイム音声モデルを直接テストできると述べました。 Codex がすでにインストールされている場合は、指定されたプロンプトで [送信] をクリックするだけで、GPT-Realtime-2 を既存のアプリケーションに追加するか、モデルに基づいて新しいアプリケーションをすばやく作成できます。同関係者はさらに、Webサイト上でこれら3つの音声モデルの技術的詳細と、一部のパートナー企業が実際の製品でそれらをどのように使用しているかを紹介した。

生成 AI がマルチモダリティとリアルタイムインタラクションに向けて進化し続けるという文脈において、OpenAI によってリリースされた 3 つの音声モデルは、「音声インテリジェンス」の方向におけるもう 1 つの重要なレイアウトとみなされます。推論、翻訳、文字起こし機能を統合することで、開発者は「すぐに利用できる」音声 AI エクスペリエンスをユーザーにさらに簡単に提供できるようになります。アシスタントツールから生産性アプリケーション、コンテンツ作成やアクセシビリティサービスに至るまで、新たな探索とイノベーションの幕開けとなることが期待されています。