数週間前、OpenAI は、最初の開発者イベントで、生成人工知能サービス用の最新の大規模言語モデル GPT-4Turbo をリリースしました。その後、Microsoft は GPT-4Turbo モデルを Azure OpenAI サービスに追加すると発表しました。本日、Microsoft は Azure OpenAI サービスの機能強化を発表し、GPT-4 Turbo with Vision モデルがパブリック プレビューとして顧客に提供されるようになりました。

Microsoft はブログ投稿で次のように述べています。

この高度なマルチモーダル AI モデルは、GPT-4Turbo の強力な機能をすべて保持しながら、画像入力を処理および分析する機能を導入しています。これにより、アクセシビリティの向上、視覚的なデータの解釈と分析、視覚的な質問応答 (VQA) など、より幅広いタスクに GPT-4 を活用する機会が開かれます。

さらに、Microsoft は、GPT-4 Turbo with Vision のプレビュー バージョンを通じて、Azure OpenAI の顧客向けにさらに多くの機能を追加しました。その 1 つは光学式文字認識 (OCR) で、画像を調べて画像内のテキストを抽出して、ユーザー プロンプトに組み込むことができます。

GPT-4 TurbowithVision のもう 1 つの機能はオブジェクト グラウンディングです。これにより、AI が画像を検査し、ユーザーからのテキスト プロンプトに基づいて画像内の主要なオブジェクトを表示できるようになります。同様に、AI はビデオの特定のフレームを分析することもできます。

マイクロソフトは次のように追加しました。

GPT-4 Turbo と Vision、Azure AI Search、Azure AI Vision を組み合わせることで、画像とテキスト データを追加して、ベクトル検索を使用してユーザー データに接続し、チャットボット エクスペリエンスを向上させるソリューションを開発できるようになりました。

このサービスの価格は、入力 1,000 ワードあたり 0.01 ドル、出力 1,000 ワードあたり 0.03 ドルで、拡張機能の価格は異なります。

現在、GPT-4Turbo with Vision は、AzureOpenAI のオーストラリア東部、スウェーデン中部、スイス北部、および米国西部のリージョンで利用できます。ビジョン機能を備えた GPT-4Turbo のパブリック プレビューにアクセスしている顧客は、「今後数週間以内に、安定した実稼働対応バージョン」に自動的に更新されます。