科学技術

ジェミニの新しい一夜限りの血祭りのプログラム、世界で7人だけが勝ち取れる

2026-02-13 12:59:20 著者: ウェブマスタークラウドネットワーク

現在、Gemini 3 Deep Think は大幅にアップグレードされ、すべての分野で SOTA をほぼ上回り、AI 推論能力が新たな次元に入ったことを示しています。 GoogleVP はこのサイドプロジェクトを披露しました。最終製品は次のようになります。

Anthropic を辞めて Google に入社した中国人学者、Yao Shunyu が Gemini 3 Deep Think に参加

今回は、科学研究や本格的なエンジニアリングの分野において「最強の頭脳」ともいえるDeep Thinkを紹介します。

スケッチを高忠実度で実用的な 3D ラップトップスタンド図にレンダリングし、直接印刷できます。

Deep Think の新バージョンはどれほど恐ろしいのでしょうか?

プログラミングの世界では、世界選手権レベルに達する 3455 Elo という驚異的なスコアを達成し、Codeforces コンテストでは人間のトップ 10 に食い込みました。

つまり、Gemini 3 Deep Thinkを倒した人は世界で7人だけということになります。 1 年前、最強の o3 は 2727 Elo を獲得しただけでした。

Human Final Exam (HLE) では、Gemini 3 Deep Think が SOTA を更新し、48.4% のスコアを達成しました。

最も難しい ARC-AGI-2 ベンチマークを一晩で直接飽和させ、84.6% の新しい SOTA で競合製品を上回りました。

左または右にスワイプして表示します

Gemini 3 Pro と比較すると、Deep Think は総合的なリードを達成し、Claude Opus 4.6 と GTP-5.2 を直接踏み出しました。

さらに衝撃的なのは、Gemini 3 Deep Thinkの実際のパフォーマンスです。

ラトガース大学の数学者リサ・カーボンは、研究をしていたとき、洗練された物理数学の論文をレビューするよう彼女に依頼しました。

その結果、Deep Think は人間の査読者ですら見逃していた微妙な論理的欠陥を発見しました。

Gemini 3 Deep Think の壮大な進化により、再び一部の人々が目を覚ましてしまいました。

現在、Google AI Ultra サブスクライバーは、Gemini の新しいバージョンの Deep Think を体験できます。同時に、APIを通じて一部の研究者、エンジニア、企業にも初めて公開されました。

SOTAを超える強さ、オリンピック金メダル・グランドスラム

昨年、Deep Think Special Edition は推論における最も困難なタスクを解決し、数学とプログラミングの世界選手権で金メダルを獲得しました。

ちょうど昨日、GoogleDeeoMind もウォームアップを行いました。

第一世代の Deep Think に支えられた「AI 数学者」であるアレセイアは、独立して論文を執筆し、「エルデシュ予想」の複数の困難な問題を証明することができます。

それだけでなく、Deep Think は 10 年間の推測を直接覆し、18 の主要な研究のボトルネックを一気に克服しました。

現在、反復された Deep Think により、複数の難しいベンチマークテストで SOTA が更新されました。

Human Last Exam (HLE): ツールを使用せずに 48.4% の精度で新しいベンチマークを設定します。

ARC-AGI-2: 前例のない 84.6% に達し、ARC Award Foundation によって検証されました。

アルゴリズムコンペティションプラットフォーム Codeforces: Elo スコアは驚異的な 3455 ポイントに達しました。

2025 IMO: 金メダルレベルに到達。

数学やアルゴリズムのコンテストに加えて、Gemini 3 Deep Think は現在、化学や物理学などの幅広い科学分野でも優れています。

2025 年の国際物理オリンピックと化学オリンピックの筆記試験部分では、Deep Think の新バージョンには金メダル機能も備わっています。

さらに、高度な理論物理学にも対応しており、CMT ベンチマークテストでは 50.5% のスコアを達成しています。

さらに、Gemini 3 Deep Think は ARC-AGI-1 を直接上回ります。

公式デモでは、Gemini 3 Deep Think が論文に基づいて「時空ループビデオトランスフォーマー」アーキテクチャの視覚化ソリューションを作成できます。

Deep Think が科学研究に参入し、10 倍に加速

最高のパフォーマンスに加えて、Deep Think はインテリジェンスの境界を打ち破り、科学、研究、エンジニアリングにおける現代の問題を解決できます。

科学研究者が複雑なデータを解釈するのに役立つだけでなく、エンジニアがコードを通じて物理システムをモデル化するのにも役立ちます。

初期のテストでは、多くの科学者が科学研究のワークフローにおける研究成果の品質を大幅に向上させました。

デューク大学では、Wang Lab が Deep Think を使用して、潜在的な半導体材料の発見に向けて複雑な結晶を成長させる製造方法を最適化しました。

予想外にも、Deep Think は 100 μm を超える膜を成長させるための処方の設計に成功し、以前の方法では達成が困難であった正確な目標を達成しました。

Google プラットフォームおよびデバイスの研究開発責任者である Anupam Pathak 氏は次のように述べています。

私は CAD デザイナーではありませんが、Deep Think を使用すると、スケッチを 3D 印刷可能なオブジェクトに直接変換できます。

図面を分析し、複雑な形状をモデリングし、3D プリントに必要なモデルファイルを生成して、物理コンポーネントのモデリングを 10 倍高速化します。

写真とプロンプトの言葉を送信するだけで、深く考えて、これまで思いつかなかったいくつかの新しいデザインソリューションを提供します。

Deep Think は、深い科学知識と実践的なエンジニアリング能力を組み合わせて、抽象的な理論を超えて実際のアプリケーションを真に推進し始めます。

ネチズンは実測に驚愕、物理シミュレーションが強すぎる

実際の測定では、Gemini 3 Deep Think は強力な物理シミュレーション機能を実証しました。

レイトレーシングをシミュレートでき、ブラウザに実装できます。

また、単一の HTML ファイルで完全な Three.js シーンを構築して、美術館にある古典的な油絵と区別できない完全 3D の室内部屋をレンダリングすることもできます。

Simon Willison は、Gemini 3 Deep Think を使用して、自転車に乗っているペリカンの SVG ベクター画像を描画しました。その効果は驚くべきものでした。

彼はこれが今まで見た中で最高のバージョンだと言いました。

基本的な「自転車に乗っているペリカンの SVG を生成する」コマンドがうまくできたので、Simon はさらに挑戦的なバージョンに挑戦することにしました。

自転車に乗っているカリフォルニアのカッショクペリカンの SVG 画像を生成します。自転車にはスポークがあり、フレームは正しい形状でなければなりません。ペリカンには、羽毛のディテールがはっきりとした特徴的な大きな喉袋が必要でした。ペリカンがペダルを漕いでいるのがはっきりと見えるはずです。画像には、カリフォルニアカッショクペリカンの完全な繁殖羽が表示されている必要があります。

結果は次のとおりです。

今回、Google は、論文のレビュー、工業デザイン、実験の最適化など、科学研究作業の「ラストマイル」に AI を真に浸透させることを可能にしました。

人間の査読者ですら無視するような論理的な抜け穴をAIが発見できるようになると、明らかに「補助ツール」という言葉はその言葉に値しなくなる。

さて、ストレスボールは OpenAI に投げ返されました。

問題点を直撃するGoogleの「深い反省」対応に直面して、ウルトラマンの次の切り札は十分に衝撃的なものに違いない。

参考文献:

https://x.com/GoogleDeepMind/status/2021981512925585703

https://x.com/GoogleDeepMind/status/2021981510400709092

https://x.com/kimmonismus/status/2021983169478533148