マルチモーダルな大型モデルの戦場では、すでにその恩恵を受けている人もいます。海外メディアの報道によると、OpenAIの新しいマルチモーダルモデル「Gobi」が準備中であるようだ。 GoogleとOpenAIの対決は目前に迫っているようだ。この秋が近づき、GoogleとOpenAIのマルチモーダルモデル争いも熾烈な段階に入った。

つい先週、Googleはマルチモーダル大型モデルGeminiの機能を一部の外部企業に公開した。

そしてもちろん、OpenAI も黙って死を待つつもりはありません。彼らはマルチモーダル機能を GPT-4 に統合するために時間との闘いを続けており、Gemini と同様の機能を備えた大規模なマルチモーダル モデルを立ち上げ、Google を一気に潰すことを目指しています。

伝説のマルチモーダル機能は、今年 3 月に世界に衝撃を与えた OpenAI の GPT-4 カンファレンスで実証されました—

紙にスケッチを描き、写真を撮って GPT-4 に送信し、「このレイアウトで Web サイトを作って」と言えば、すぐに Web ページのコードが書き込まれます。


ボスのグレッグ・ブロックマンがオンラインで自らデモンストレーションを行う

しかしその後、マルチモダリティは一瞬の出来事のように見え、製品化された身体機能を見た人は誰もいませんでした。

では、Google と OpenAI の間のマルチモーダル戦争はついに到来するのでしょうか?

Googleとの戦い、OpenAIは大規模なマルチモーダルモデルのリリースを急ぐ

Google がこの大きな殺人者を自らの手で殺害しようとしているという噂に直面しても、OpenAI は決して無関心ではいられないでしょう。

海外メディア「The Information」によると、「Gobi」と呼ばれる新しいマルチモーダル大型モデルがすでに集中的に準備されているという。

OpenAIはGeminiのリリース前にマルチモーダルLLMを立ち上げ、Googleを完全に破る計画だ。


OpenAIのグレッグ・ブロックマン vs Googleのデミス・ハサビス

実際、OpenAI は 3 月に GPT-4 マルチモーダル機能のプレビューを公開した後、この機能を BeMyEyes という会社に提供しましたが、他の企業には提供していませんでした。

名前からわかるように、この会社は視覚障害者がより鮮明に見えるようにする技術を開発しています。

最近、OpenAI は GPT-Vision と呼ばれる機能をより広範囲に展開する予定です。


OpenAI にこれほど時間がかかったのはなぜですか?

その主な理由は、認証コードを自動的に解読して人間になりすましたり、顔認識によって人間を追跡したりするなど、新しい視覚機能が犯罪者によって悪用されるのではないかと懸念しているためです。

ただし、OpenAI のエンジニアは、これらの法的セキュリティ リスクを解決したようです。

同様に、Google の広報担当者も次のように述べています: Google は Gemini の悪用を防ぐためにいくつかの措置を講じています。

Googleは7月に行った誓約の中で、すべての製品に責任ある人工知能を開発すると約束した。

ゴビはGPT-5になれるでしょうか?

GPT-Vision の後、OpenAI はコードネーム Gobi と呼ばれる、より強力なマルチモーダル大規模モデルを立ち上げる可能性があります。

GPT-4 とは異なり、Gobi は最初からマルチモーダル モデルに基づいて構築されています。

では、ゴビは伝説の GPT-5 なのでしょうか?


今のところは分かりません。ゴビが訓練でどこまで到達したかについての明確な情報はありません。

9月初旬、DeepMindの共同創設者で現在はInflectionAIの最高経営責任者(CEO)であるムスタファ・スレイマン氏がインタビューで爆弾発言を発表、OpenAIが秘密裏にGPT-5をトレーニングしているのではないかと推測した。

スレイマン氏は、サム・アルトマン氏がGPT-5を訓練していないと最近発言したのは真実ではないのではないかと考えている。 (元の言葉は「Comeon.Idon’tknow.Ithinkit’sbetterthatwe’realljuststraightaboutit.」です。)


ここで、ジェミニを試した人によると、ジェミニは既存のモデルよりも幻覚が少ないとのことです。その理由については以下で詳しく説明します。

つまり、GoogleとOpenAIのマルチモーダルモデル戦争は、iPhoneとAndroidの対決のAI版とも言える。

1つは長年にわたってAI分野を支配してきたシリコンバレーの巨人であり、もう1つは脚光を浴びている一流のAIスタートアップ企業です。両者の差はどれほど大きいのか、誰もが固唾を飲んで見守っている。

Googleは秘密裏にGeminiをテスト

一方、Googleは、次期次世代マルチモーダル大型モデルGeminiのテストを迅速化するために、一部の外部開発者を招待し始めている。

先週、The Information は、Gemini が間もなくテスト リリースの準備が整い、Google Cloud Vertex AI などのサービスに統合される可能性があると独占的に報じました。


今年の Google I/O 開発者カンファレンスで、ピチャイ氏は、マルチモーダル モデル、効率的な統合ツール、および API である Gemini を公に紹介しました。

協力して大きなことを成し遂げるために、Google は Google Brain と DeepMind Labs を合併しました。


ジェミニの研究開発にはディープマインド創業者のデミス・ハサビス氏を筆頭に、グーグル創業者のセルゲイ・ブリン氏ら少なくとも20人以上の幹部が研究開発に参加したと言われている。

Google DeepMind には、元 Google Brain ディレクターの Jeff Dean らを含む数百人の従業員もいます。

このモデルをテストしたある関係者は、Gemini は少なくとも 1 つの点で GPT-4 よりも優れていると述べました。このモデルは、ウェブ上で公開されている情報に加えて、Google の消費者向け製品 (検索、YouTube) からの大量の独自データも活用しています。

したがって、Gemini は特定のクエリに対するユーザーの意図を特に正確に理解する必要があり、誤った答え、つまり幻覚を生み出すことが少ないようです。

SemiAnalysis アナリストの以前のレポートによると、Google の次世代大型モデル Gemini は、最大 ~1e26FLOPS の計算能力を備えた新しい TPUv5Pod でトレーニングを開始しました。これは、トレーニング GPT-4 の計算能力の 5 倍です。


さらに、Gemini のトレーニング データベースには Youtube 上の 936 億分のビデオ字幕が含まれており、データ セットの合計サイズは GPT-4 の約 2 倍です。

Googleの次世代大規模モデルも複数のスケールで構成されており、MoEアーキテクチャや投機的サンプリング技術が使用される可能性があると言われています。

トークンは小規模モデルによって事前に生成され、評価のために大規模モデルに渡されて、モデル全体の推論速度が向上します。

Google DeepMindの責任者であるハサビス氏はインタビューで、Geminiの開発には数千万ドルから数億ドルの費用がかかると予想されており、これはGPT-4の開発費に匹敵すると語った。

Gemini は AlphaGo で使用されているテクノロジーを統合し、システムに新しい計画能力と問題解決能力を与えます。

Gemini は、AlphaGo システムの利点の一部と、大規模な言語モデルの驚くべき言語機能を組み合わせていると言えます。他にも興味深いイノベーションがいくつかあります。


AlphaGo の背後にあるテクノロジーは強化学習であり、DeepMind が開発したテクノロジーです。


RL エージェントは時間をかけて環境と対話し、試行錯誤を通じてポリシーを学習し、それによって長期的な累積報酬を最大化します。

強化学習を通じて、AI は試行錯誤を通じてパフォーマンスを調整し、フィードバックを受け取ることができ、それによって、囲碁やビデオゲームで次の一手をどのようにとるかを選択するなど、難しい問題に対処する方法を学習します。

さらに、AlphaGo はモンテカルロ ツリー検索 (MCTS) メソッドも使用して、ボード上のすべての可能な手を探索して記憶します。


既存のモデルと比較して、Gemini はソフトウェア開発者のコ​​ード生成機能を大幅に向上させるため、Google はこれを利用して Microsoft の GitHubCopilot コード アシスタントに追いつきたいと考えています。

Googleはまた、Geminiを使用して、完成したチャートの意味をモデルに解釈するよう依頼したり、テキストや音声コマンドを使用してウェブブラウザやその他のソフトウェアを閲覧したりするチャート分析などの機能を実装することについても議論している。

Google Cloud 開発者プラットフォーム Google Cloud Vertex AI も Gemini でサポートされ、大規模バージョンと小規模バージョンの両方が利用できるため、開発者は個人のデバイスで実行する小規模モデルを購入するために料金を支払うことができます。

現在、グーグルは戦争の準備を万全にし、ジェミニが反撃を開始するのを待っている。

gpt-3.5-turbo-instruct がリリースされました

7 月、OpenAI は、GPT-4 API が完全に利用可能になり、今後数か月以内に新しいモデルをリリースすると発表しました。


いいえ、ちょうど今日、ネチズンは古いモデル text-davinci-003 に代わる gpt-3.5-turbo-instruct の新モデルをリリースする電子メールを受け取りました。

報告によると、gpt-3.5-turbo-instruct は InstructGPT スタイルのモデルであり、そのトレーニング方法は text-davinci-003 に似ています。

使用方法は前回のPrompt-Completionと同様で、プロンプトワードの指示に従って完了します。


価格の点では、gpt-3.5-turbo4K は一貫しています。

一部のネチズンはすでに最新モデルを使用して、約 1800 人の Elo とチェスをプレイし始めています。

彼は以前、GPT ではこれがまったくできないことを発見しましたが、現在では、これは RLHF チャット モデルのみの問題であり、純粋な Completion モデルは成功しているようです。


ゲームでは、gpt-3.5-turbo-instruct が Stockfish レベル 4 (1700 ポイント) を簡単に破り、レベル 5 (2000 ポイント) にも負けませんでした。

決して違法な動きをすることはなく、巧妙な開始犠牲と信じられないほどのポーンとキングのチェックメイトを使用して、対戦相手が実質的な意味を持たずに前進できるようにします。


ネットユーザーは次の PGN スタイル プロンプトを使用してマスター ゲームをシミュレートします。ハイライトの入れ方が少し間違っています。 GPT は独自の動きを行い、Stockfish の動きを手動で入力します。



ちなみに、11月に開催されるOpenAI初の開発者カンファレンスの登録が始まっているので、急いで申し込んでください。