北京時間月曜日の夕方、人工知能の分野で有名なスタートアップであるOpenAIは、「」というタイトルのレポートを発表した。ChatGPT は見る、聞く、話すことができるようになりました」という発表で、この機能が今後 2 週間以内に有料ユーザーに提供されることを発表しました。 今年 3 月の GPT-4 記者会見で最も衝撃的な場面は、OpenAI の社長である Greg Brockman が一枚の紙を手に取ってスケッチを描き、写真を撮り、GPT-4 にこの Web サイトのコードを 10 秒で生成させたことでしょう。


(出典: OpenAI)

ChatGPTは以前、画像をアップロードできる「コードインタープリタ」機能をリリースしており、画像やテキスト写真を処理するためのいくつかの予備機能を備えています。しかし、今日の「写真を撮って質問する」という行為が、ほとんどのユーザーの AI アシスタントの使用シナリオに近いことは間違いありません。

冷蔵庫の写真を撮って、今夜何を食べるかを教えてください

タイトル順に、本日更新された主な機能は次の 2 つです。画像ベースの会話とリアルタイムの音声会話。

まずは注目を集めている画像チャット機能についてお話しましょう。 OpenAI によると、ユーザーは次のことが可能になります。冷蔵庫の写真を撮ると、ChatGPT がレシピを推奨します。旅行中ランドマークの写真を撮り、ChatGPT にその場所の興味深い点を教えてもらいましょう。もちろん、数学の問題の写真を撮って、ChatGPT に答えさせることもできます。

公式の例では、ChatGPT にバイクの写真とそれがどうなったかを尋ねたシートを下げた状態。その後、ChatGPTは、それはあなたの車のモデルに依存すると言いました。クイックリリースロッドを備えている車両もあれば、ボルトで固定されている車両もあり、詳細な手順が記載されています。


すると役人は分からないふりをしてボルトの写真を撮りました。彼は強調するために公式の描画ツールでその部分を丸で囲み、それがクイック リリース レバーであるかどうかを ChatGPT に尋ねました。 ChatGPTは言いましたこれはボルトなので六角レンチが必要です。


その後、役人は工具箱の写真を撮り、ChatGPT にそれがどのレンチかを尋ねました。 ChatGPT もレンチを正常に認識し、ユーザーにどのサイズを選択するかを正確に指示しました。


ChatGPTは話せる!

さらに、OpenAI は音声認識、文字起こし、音声生成機能もパッケージ化してリリースします。AI ボイスチャット機能。この機能は iOS および Android クライアントでのみ利用可能です。当局者らによると、ユーザーはこの機能を利用して、自宅の子供たちに就寝時の物語を伝えることができるという。あるいは、家で食事をしているときに、ある問題について突然口論になった場合、ChatGPT をデスクトップに置いて、口論を解決することができます。


OpenAI によると、この機能は Whisper オープンソース音声認識システムを使用して、ユーザーの発言をテキストに変換します。また、新しいテキスト読み上げモデルを使用し、プロの声優と協力して、ユーザーが選択できる 5 つの音声を提供します。

より高度な AI にも新たなリスクと制限がある

OpenAIによると、同社の新しい音声技術は、わずか数秒間の実際の音声からリアルな合成音声を作成できるという。この機能は創造性への扉を開きますが、犯罪者が著名人になりすまして詐欺を行う可能性など、新たなリスクも生み出します。したがって、OpenAI は、「ボイスチャット」などの特定のユースケースを通じてこの機能を開始することを決定しました。

同時に、OpenAI はさらに多くの機関と協力しています。例えばストリーミング企業 Spotify は、音声翻訳用にこの機能を試験的に導入しており、ポッドキャスト ホストが自分の声を使ってポッドキャスト オーディオを他の言語に翻訳することで、世界的な配信範囲を拡大できるよう支援しています。

また、画像は、幻覚の問題や、ユーザーが高リスク領域の画像のモデル解釈に依存するなど、新たな課題ももたらします。したがって、OpenAI はオンライン化する前に、過激主義や科学的能力などの分野でのリスク テストも実施しました。

また、この記事を読んでいる中国人読者にとって、絵対話の体験はおそらく楽しみに値するでしょうが、音声対話は割り引いて考える必要があるかもしれません。 OpenAIはこう言いました。このモデルは英語テキストの転写には優れていますが、他の一部の言語、特に非ローマ字を使用する言語ではパフォーマンスが低下するため、英語以外のユーザーはそのような目的で ChatGPT を使用しないことをお勧めします。