ChatGPT は音声および画像機能を起動し、さまざまな形式のコマンドを使用して AI

OpenAI による ChatGPT に対する変更のほとんどは、AI ボットの機能、つまり回答できる質問、アクセスできる情報、基盤となるモデルの改善に関係しています。ただし、今回は ChatGPT 自体の使用方法を微調整します。同社は、テキストボックスに文章を入力するだけでなく、声に出して話したり、写真をアップロードしたりすることでもAIボットに指示を出せるサービスの新バージョンを開始する。

OpenAIによると、新機能は今後2週間以内にChatGPTの料金を支払ったユーザーに展開され、他のユーザーも「すぐに」新機能を利用できるようになるという。

ボイスチャットの部分は非常に馴染みのあるものです。ボタンをクリックして質問を話すと、ChatGPT がそれをテキストに変換して大きな言語モデルに送り込み、回答を取得して音声に変換し、答えを読み上げます。 Alexa や Google アシスタントに話しかけているような気分になりますが、基盤となるテクノロジーの改善により、答えがより良くなることを OpenAI だけが望んでいます。ほとんどの仮想アシスタントは変革のために LLM に依存しているようですが、OpenAI がその先頭に立っています。

OpenAI の優れた Whisper モデルは音声合成の多くの作業を行い、同社は「テキストと数秒の音声サンプルから人間のような音声を生成」できる新しいテキスト音声合成モデルを発表しています。 ChatGPT の音声は 5 つのオプションから選択できますが、OpenAI はこのモデルにはそれ以上の可能性があると考えているようです。たとえば、OpenAI は Spotify と協力して、ポッドキャストの音声を維持しながらポッドキャストを他の言語に翻訳しています。合成音声には興味深い用途が数多くあり、OpenAI は業界の重要な部分になる可能性があります。

しかし、有能な合成音声を構築するのにわずか数秒の音声しかかからないという事実は、さまざまな問題のある使用例への扉を開くことにもなります。「これらの機能は、悪意のある人物が著名人になりすましたり、詐欺行為を行ったりする可能性など、新たなリスクももたらします。OpenAIがこのモデルを広範に使用していないのはこのためです。より厳密に管理され、特定のユースケースやパートナーシップに限定されます」と同社は新機能を発表したブログ投稿で述べた。

一方、画像検索は Google レンズに似ています。興味のあるものの写真を撮るだけで、ChatGPT が問題を判断し、それに応じて対応します。アプリの描画ツールを使用して質問を明確に表現したり、画像に基づいて質問を話したり入力したりすることもできます。ここで、ChatGPT の前後の性質が役に立ちます。最初に検索して、間違った答えが得られた後に再度検索するのではなく、ボットにプロンプトを表示し、同時に答えを絞り込むことができます。 (これは、Google がマルチモーダル検索で行うことと非常に似ています)。

画像検索にも潜在的な問題があることは明らかです。 1 つは、チャットボットに人との会話を促すときに何が起こるかということです。OpenAI は、精度とプライバシーの懸念から、ChatGPT の「人物を分析し、直接述べる能力」を意図的に制限していると述べています。つまり、人工知能の最も SF 的なビジョンの 1 つである、人を見て「あれは誰だ?」と言う能力がすぐに実現するわけではないということです。そしてそれは良いことなのかもしれない。

ChatGPT が最初にリリースされてからほぼ 1 年が経過しましたが、OpenAI は依然として、新たな問題や欠点を持ち込まずにボットにさらに多くの機能を提供する方法を模索しているようです。これらのバージョンでは、同社は新しいモデルの機能を意図的に制限することでこれを達成しようとしました。しかし、このアプローチは永遠に機能するわけではありません。音声コントロールや画像検索を使用する人が増え、ChatGPT が真にマルチモーダルで便利な仮想アシスタントになるにつれて、ガードレールを維持することがますます困難になるでしょう。