現在の AI ブームの背後にあるテクノロジーに関して言えば、実際には Alphabet 傘下の Google が発明者ですが、その製品の人気は大幅に遅れています。 Googleは、同社がこれまで構築してきた「最大かつ最も強力なワーカーインテリジェンスモデル」であるGeminiの待望のリリースによって、この状況を変えたいと考えている。

OpenAI が昨年、会話型チャットボット ChatGPT で大成功を収めて以来、ますます多くの企業が生成 AI を実験しています。生成 AI は、ユーザーのリクエストに基づいてコーディング、レポートの要約、マーケティング キャンペーンの構築などのタスクを自動化できるテクノロジーです。 12月6日の同製品の発売に先立ったプレゼンテーションでGoogleは、Geminiはスマートフォン上で直接実行できるものを含め、さまざまなサイズのバージョンが用意されており、これまでに構築した中で最も柔軟なモデルであると強調した。これにより、他の競合他社との差別化が図られます。

この人工知能モデルは、さまざまな生成人工知能アプリケーションをサポートするために使用されるシステムです。 GeminiUltra、GeminiPro、GeminiNano の 3 つの異なるバージョンがあります。 GoogleのDeepMind部門製品担当バイスプレジデント、Eli Collins氏は、この多様性はGeminiが「モバイルデバイスから大規模なデータセンターまであらゆるもので実行できる」ことを意味すると述べた。

「私たちは、人々が世界を理解し、世界と対話する方法にインスピレーションを受けて、インテリジェントなソフトウェアというよりも、役に立つ協力者のように感じられる、新世代の人工知能モデルを構築したいと長年考えてきました」とコリンズ氏は電話インタビューで語った。 「ジェミニは私たちをそのビジョンに一歩近づけてくれます。」

同社はモデルのリリースに先立ち、一連の標準的な業界ベンチマークでGeminiをテストし、8つのテストのうち6つでGemini ProがOpenAIのGPT-3.5を上回ったと述べた。 Googleによると、Geminiは一般的な言語理解、推論、数学、コーディングのベンチマーク8つ中7つにおいて、OpenAIの汎用モデルの最新バージョンであるGPT-4を上回ったという。一方、Googleは、プログラムコードを解釈して生成する最新の生成AI製品「AlphaCode2」が、競技プログラミングにおいて競合他社の85%を上回る成績を収めていると推定している。同社は、Gemini のモデル アーキテクチャ、トレーニング プロセス、評価をより詳しく説明する技術レポートをリリースする予定です。

12 月 6 日より、スマートフォンやタブレット向けの Gemini 搭載アプリを作成したい Android 開発者は、そのようなデバイス上で直接実行できるこの AI モデルの「ナノ」バージョンを使用するために登録できるようになります。 Googleはまた、同社の主力携帯電話Pixel 8 ProでGeminiを直ちに有効にし、電話録音からの重要なポイントを要約するなどの新しい生成AI機能をサポートすると述べた。 Google は来週、VertexAI および AIStudio プラットフォームを通じてクラウド顧客が GeminiPro を利用できるようにする予定です。

Google の人工知能モデルの最大バージョンである Gemini Ultra は、当初は開発者および企業向けの早期アクセス プログラムで利用可能となり、プログラムの詳細は来週発表される予定です。このバージョンは、来年初めに広く公開される予定です。

Gemini はまた、同社の会話型チャットボットで ChatGPT の競合相手である Bard を通じて、Google の多数のアプリやサービスと統合しています。以前、Bard は Google の PaLM2 モデルを使用していました。これは、同社が 5 月の年次開発者会議で発表した大規模言語モデルです。

Googleはここ1年、中核となる検索事業の再発明と、生成型人工知能プログラムの台頭への対応という両方のプレッシャーにさらされてきた。同社は長い間人工知能研究の先駆者とみなされてきたが、特にChatGPTや画像生成器Dall-Eなどの製品の成功後、AI製品の市場投入が遅れているとして経営陣を批判する人もいる。 OpenAIが3月にGPT-4をリリースして以来、Googleは成熟した検索ビジネスに新技術を導入するなど、この分野でのリーダーシップを再確認しようと取り組んできた。

Gemini は、この市場の圧力に対する同社の答えです。 Googleによれば、AIモデルは「本質的にマルチモーダル」であり、ユーザーから与えられるテキストや画像ベースのプロンプトを処理するために最初から事前にトレーニングされていることを意味する。たとえば、Google はビデオ デモンストレーションで、特定の数学の問題の画像と問題を解く手順の写真をメモ用紙にアップロードすることで、親が子供の宿題の完了を支援できることを示しました。

グーグルのソフトウェアエンジニア、アップルバウム氏はデモビデオの中で、「ジェミニはこれらの質問を解決できるだけでなく、答えを読んでどれが正しくどれが間違っているかを理解し、さらに明確にする必要がある概念を説明することもできる」と述べた。同社はまた、Googleが自社の生成人工知能技術を使用して構築した検索エンジンの実験版である「検索生成エクスペリエンス」が、来年Geminiの新機能に統合される予定だとも発表した。

それでも、同社の代表者らは、ジェミニは依然として「幻覚」、つまり生成AIによって生成される虚偽または捏造された情報に見舞われる傾向があると警告した。コリンズ氏はこの現象を「未解決の研究課題」と呼んでいる。同社が記者らに見せたデモビデオは事前に録画されたものだった。

コリンズ氏は、Geminiは「GoogleのAIモデルの中で最も包括的なセキュリティ評価を行っている」と述べた。同氏によると、GoogleはGeminiのセキュリティを評価するため、プログラムを悪用しようとする悪意のある人物を模倣してプロンプトを与えるAIモデルの敵対的テストを実施したという。このテストには、アレン人工知能研究所が開発したテスト「Real Toxicity Prompts」が含まれており、AI 研究者がヘイトスピーチや政治的偏見に関する大規模な言語モデルを調査するのに役立つように、Web から抽出された 100,000 を超えるプロンプトが含​​まれています。

Googleはまた、このツールは高速であると強調した。 Gemini は、新しい基盤となるスーパーコンピューター アーキテクチャと新しい処理チップを使用しており、以前の小型モデルよりも高速に実行できると同社は述べています。 Google は、クラウド チップの新バージョンである Cloud Tensor Processing Units (略して TPU) を使用しています。これは、既存のモデルを前世代より 2.8 倍高速にトレーニングできる社内設計のチップです。 Googleの機械学習担当バイスプレジデントであるアミン・ワダット氏は、このアプローチはGoogleに「将来の標準AIインフラストラクチャーに対する新たな視点」を与えるものであると述べた。同氏は、同社は今後もジェミニモデルの実行にサードパーティのAIチップを使用するだろうと付け加えた。

Gemini は、3 月に発売された Google の生成 AI チャットボットである Bard に統合され、Gmail、マップ、ドキュメント、YouTube などの同社の最も人気のあるサービスにアクセスできるようになります。ロールアウトは 2 つの異なる段階で行われます。12 月 6 日から、Bard には GeminiPro が搭載され、高度な推論、計画、理解、その他の機能が可能になります。この計画は170の国と地域で英語で実行できるようになるが、特にヨーロッパや英国では実行できず、同社は現地の規制当局と協議していると述べた。

同社は来年初めに、より強力な Gemini Ultra モデルを搭載した BardAdvanced をリリースする予定です。 Googleは、BardAdvancedを一般に広く展開する前に、改良を目的とした信頼できるベータプログラムを間もなく開始すると発表した。 GoogleのBard製品担当バイスプレジデントであるシシー・シャオ氏は、「Geminiの恩恵を受けて、Bardはこれまでで最大にして最良のアップグレードを行っており、人々が創作、交流、コラボレーションする新たな方法を開くことになるだろう」と述べた。