Google は、developers_5iter.com により完全なマルチモーダル RAG 機能を提供するために、Gemini API のファイル検索機能の拡張を発表しました。

Google は最近、Google Gemini API のファイル検索機能の拡張を発表し、開発者により完全なマルチモーダル検索拡張生成 (RAG) 機能を提供します。この更新プログラムの中核には、画像とテキストの混合取得のサポート、カスタムメタデータフィルタリングのサポート、新しいページレベルの参照サポート、エンタープライズナレッジベース、ドキュメント Q&A、エージェントなどのシナリオにおける AI システムのアクセシビリティと精度の向上が含まれます。

Googleの公式ブログによると、ファイル検索機能の新バージョンは従来のテキストベクトル検索に限定されず、Gemini Embedding 2上に構築された統合されたマルチモーダル埋め込み機能に基づいており、画像、PDF、文書内のビジュアルコンテンツとテキストコンテンツを同時に理解できるという。開発者は、複雑なベクトルデータベース、埋め込みパイプライン、ドキュメントセグメンテーションシステムを構築する必要がなく、完全な RAG ワークフローを Gemini API で直接完了できます。

従来の RAG システムでは、写真、チャート、スクリーンショット、設計図面などのビジュアルコンテンツは効果的にインデックスを作成することが難しいことが多く、その結果、AI の回答では文脈の理解が不足します。 Gemini API の新しいマルチモーダルファイル検索機能は、画像内のコンテンツをネイティブに識別し、テキストとともに検索インデックスを構築できます。たとえば、企業は製品画像、データチャート、技術アーキテクチャ図を含む PDF ファイルをアップロードでき、AI は回答時に視覚情報とテキストの説明を同時に理解できます。

Googleによれば、この機能はエンタープライズレベルのナレッジアシスタント、顧客サービスロボット、文書分析システム、AIエージェントの構築に特に適しているという。開発者は、独立した画像検索システムの追加メンテナンスを必要とせずに、内部文書に基づいてモデルに推論を実行させることができます。大量の画像データとテキストデータが混在している企業にとって、これは展開の複雑さが軽減され、取得精度が向上することを意味します。

もう 1 つの新機能はカスタムメタデータフィルタリングです。開発者は、アップロードされたファイルにタグ、カテゴリ、時間、部門などのメタデータを追加できるため、その後の取得時にメタデータに従ってファイルをフィルタリングして、精度と効率を向上させることができます。これは大規模なナレッジベース管理にも適しており、無関係なコンテンツがコンテキストウィンドウに入ることを減らします。

もう 1 つの重要な機能は、ページレベルの引用です。 Gemini AI は、回答を生成するときに、ファイル全体を漠然と参照するのではなく、情報が文書のどのページから来たのかを明確にマークできます。これにより、ユーザーは回答を得た後にクリックして特定の文書ページを表示し、内容の正確さを判断したり、完全な文書を読んで詳細情報を取得したりすることができます。

現在、Google Gemini API ファイル検索機能の新バージョンはすべての開発者に公開されています。興味のある開発者は、Google AI Studio や Google Cloud などのプラットフォームを通じて Gemini API を開いて体験できます。

開発者ガイド: https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878