マスク氏が20万枚のカードを使って訓練したGrok 3はDeepSeekを超えることができるだろうか？

2月18日、マスク氏の「地球上で最も賢い人工知能」がついにデビューした。彼の人工知能会社 xAI は、新世代の大規模言語モデル Grok3 を正式にリリースしました。マスク氏自身も同時にソーシャルプラットフォームX上でライブデモを開始した。生放送によると、Grok3は現在市場にリリースされているすべての人工知能を上回ったという。公式に発表されたテストデータでは、数的推論、科学的論理的推論、コード記述のパフォーマンスが ChatGPT-4o や DeepSeek-V3 などの競合製品よりも優れています。

Grok 大型モデルは、マスク氏の xAI 会社が立ち上げた人工知能モデルです。名前の由来は、アメリカのSF作家ロバート・ハインラインの小説『ストレンジャーリナ・ストレンジ・ランド』。シリーズ初の大型モデルGrok1は2023年11月にリリースされる予定。2024年にはモデルのパラメータ数がGPT-3.5の1750億をはるかに上回る3140億に拡大される予定だ。 2024 年 8 月に、Grok2 大型モデルがリリースされ、Grok1 に基づいて完全にアップグレードされ、X プラットフォームでユーザーが無料で利用できるようになりました。エンジニアによると、このライブブロードキャスト中に起動された Grok3 には Grok2 の 10 倍のトレーニングが含まれており、Grok3 は xAI 内で 2 週間実行されています。

Grok3 トレーニングに使用される GPU の総数は 200,000 であると報告されています。最初の段階では、トレーニングに 100,000 個の GPU が使用され、これには 144 日かかりました。第 2 ステージの 92 日間で、使用される GPU の数は 200,000 に拡大しました。以前にインドが 18,000 個を超える GPU を備えた公共コンピューティング施設を立ち上げ、国内の人工知能の開発と国内の大規模言語モデルのトレーニングを促進するためにスタートアップ、研究者、開発者に開放されると報じられました。比較すると、xAI の Grok3 トレーニングで使用される GPU の総量は、インドの国家プロジェクトで使用される GPU の総量を 10 倍以上はるかに上回っています。巨大なコンピューティング能力は、Grok3 の立ち上げ加速の最大の推進力となり、また、ますます激化する市場競争において xAI に全幅の信頼を与えています。

ライブブロードキャストイベントでは、xAIエンジニアが現場で宇宙打ち上げの3Dアニメーションのコードを生成したり、「Bejeweled」と「テトリス」を組み合わせたゲームを作成したりするなど、Grok3の使用法をデモンストレーションした。 Grok3 は良好なパフォーマンスを示し、このモデルが複雑な知識を十分に理解していることも証明されました。 Musk 氏は、Grok3 は Grok2 よりも一桁強力であると述べました。

Grok3 の優れたパフォーマンスに直面して、有名なブロガー Alexandr Wang は、Grok3 が新たな世界最高のモデルであると述べました。チャットロボット分野では第 1 位にランクされており、はるかに先を行っています。アムジャド・マサド氏は、Grok3が最も先進的な最先端モデルのようだとも述べた。 xAIの状況を考慮すると、このモデルのリリースは間違いなく大きな成果であると彼は信じています。有名なポッドキャストホストのレックス・フリッドマンもこのモデルに感銘を受け、このモデルに対する賞賛を表明しました。

Grok3が引き起こした騒動は、実は同モデルの正式発表よりも前に起きた。

以前、DeepSeek は世界中で大流行を引き起こしました。 DeepSeek-R1 モデルの優れたパフォーマンスと、それが表す低コストのトレーニングルートにより、人々はかつて世界規模の AI 談話権の所有権の問題について議論し始めました。人工知能業界はまだ競争の段階にありますが、DeepSeek-R1 モデルが世界に大きな影響を与えることは間違いありません。

DeepSeekの人気を受けて、OpenAIのCEOであるAltman氏は2月13日にブログ投稿を公開し、GPT-4.5とGPT-5の発売の準備を進めていることを発表し、ロードマップを発表した。

また2月13日、マスク氏はドバイで開催された世界政府サミットで、xAIが新世代モデルGrok3を発売すると述べ、「人々を怖がらせるほど強力だ」と称賛した。これは Grok3 に関する憶測も引き起こしており、AI に関する議論が再び西側に向けられる可能性があります。

この時点で、人工知能モデルに関連した「三国殺し」が具体化しました。

xAI の重要な市場競合相手として、Grok3 に対する OpenAI の対応も人々の注目を集めています。今日マスクの生放送が始まる前に、ウルトラマンはソーシャルプラットフォームにメッセージを投稿した

スター製品である DeepSeek-R1 と比較すると、「推論 + テスト時間の計算」において、数学的推論、科学的論理的推論、プログラミングの 3 つの側面における Grok3ReasoningBeta バージョンの総合スコアはそれぞれ 93、85、79 であり、いずれも DeepSeek-R1 の 80、71、65 を上回っています。最新の AIME2025 パフォーマンステストでは、Grok3ReasoningBeta バージョンのスコアは 93 でした。 DeepSeek-R1 よりも高いポイントです。元 Tesla 人工知能ディレクターで OpenAI 創設チームメンバーの Andrej Karpathy 氏は、初期の経験を通じて、Grok3 モデルは DeepSeek-R1 ではできないことを実際に実行できると指摘しました。純粋にテストデータから見ると、Grok3 は確かに DeepSeek-R1 よりわずかに優れています。

Grok3 はテストで優れた結果を出しましたが、分析性能も依然として備えています。「推論 + テスト時間の計算」のテストでは、Grok3 の数学的パフォーマンスは o3-mini (高) や DeepSeek-R1 と比較して大きな利点はありません。 Musk氏は、Grok3はまだ初期のトレーニング段階にあり、今後も最適化が続けられるだろうと述べた。

本日より、X プラットフォームの PremiumPlus 加入者が最初に Grok3 にアクセスできるようになることがわかっています。さらに、xAI は SuperGrok と呼ばれるスタンドアロンのサブスクリプションサービスを開始しましたが、価格はまだ明らかにされていません。マスク氏はまた、xAIのエンジニアリングチームが現在Grok3のミニバージョンをトレーニングしていると述べ、「ミニバージョンはトレーニングに時間がかかり、場合によってはGrok3推論モデルよりもわずかに優れたパフォーマンスを発揮することがある」と述べた。

Grok3 以降、「Grok より優れた AI はない」というマスク氏の予測は実現するでしょうか?現在のAIの更新速度から判断すると、本当に判断が難しいです。しかし、モデルのパフォーマンスから判断すると、マスク氏は確かに人工知能ゲームにおいて重要な「ビッグネーム」を放ったことになる。