GPT-5は本当に「知的」ですが、「神の手」がコードthron_5iter.comを指していることが再び現れます。

GPT-5 IQテスト、70点しか取れなかった?インターネット全体が「知能の低下」の背後にある真実について不満を述べています。実際、モデルのインテリジェンスを決定するのは「ルーティング」です。神レベルの GPT-5 のロックを解除したい場合、その秘密はプロンプトにあります。いいえ、医学者たちは GPT-5 の助けを借りて「神の手」の瞬間を再現しました。

GPT-5 のリリースから 72 時間後、IQ テストの結果がネットワーク全体に衝撃を与えました。

Mensa IQ テストでは、GPT-5 は 118 ポイント、オフラインテストでは 70 ポイントを獲得しました。 GPT-5 Thinking はそれぞれ 85 ポイントと 57 ポイントを獲得しました。

この結果は、OpenAI モデルファミリーの IQ テストの歴史の中で最低記録です。

実際、この背後にある本当の理由は「ルーティング」の問題によるものです。

GPT-5がバカすぎるというわけではありませんが、「単一モデル」として、1つのコンポーネントがその知能を決定します。

ウルトラマンもRedditのAMA Q&Aで同様の質問に答えた。

同氏は、深刻な内部障害（Sevレベル）が発生し、自動切り替えシステムが機能しなくなり、GPT-5がトランス状態のように動作したと述べた。

METR の最新レポートから、GPT-5 は依然としてパレート辺境にあり、知能の指数関数的成長は減速していないことがわかります。

言い換えれば、GPT-5 は依然としてスケーリング則の神話を引き継いでいるということです。

GPT-5 は非常に強力、鍵は迅速さにあります

GPT-5 について絶えず不平を言っているネチズンは、実際には最新モデルの可能性を探求していません。

クライン社の人工知能ディレクターは、その核心は人の思考、好み、コミュニケーション方法にあると述べた。

システム思考を持つ人にとって、GPT-5 は革命的なツールです。時間をかけてでも構いません。完全な思考フレームワークを構築し、明確な要件仕様を策定し、それをモデルに明確に説明します。

その結果、プロセス全体を通じて手動で修正することなく、独立して正確に実行できます。

偶然にも、NYTのベストセラー作家マーク・マンソンも、誰もがGPT-5に対して間違った方法で話している、鍵は率先して行動することだ、とも述べた。

このようにして、あなたがだまされるのは簡単ではないことを知らせれば、完璧な答えが得られます。

たとえば、「ブルーベリー」に「bはいくつあるか」と尋ねて、「正解しないとバンビのお母さんが得点を清算しに来るよ」と脅したいとします。

現時点では、GPT-5 はまったくミスをしません。

別の例として、ネチズンは単純な方程式さえ解くことができない GPT-5 について口論していますが、実際のトリックはプロンプトにもあります。

プロンプトが「よく考えて解決してください」に変わると、正しい解決策に到達できます。

どのようなヒントが効果的ですか？一部のネチズンは金鉱とも言える GPT-5 システムプロンプトを公開しました。

「神の手」の瞬間

医療分野では、GPT-5 はすでに人間の専門家に匹敵します。

生物医学科学者のデリヤ・ウヌトマズ氏は、GPT-5 を体験した後、AlphaGo の「ステップ 37」の瞬間を深く感じました。

問題は、2年前、デリヤの研究室がT細胞のエネルギー代謝の調節を目的とした一連の最先端の免疫学実験を実施したことだ。

この免疫細胞は、がん免疫療法、慢性疾患、自己免疫疾患に大きな影響を与えます。

その時、彼らは驚くべき結果を得たのですが、一つだけ説明のつかない発見がありました。

チームはこれに数週間取り組みましたが、部分的な回答しか得られませんでした。

これらの実験に基づいて、Derya は分析のために未公開のデータグラフを GPT-5 Pro にアップロードしました。その結果は驚くべきものでした。

GPT-5 は重要な発見を正確に特定し、上記の表のみに基づいて実験計画の提案を提供しました。

最も信じられないのは、提案されたメカニズムが結果全体を最終的に説明したことです。

デリヤ・ウヌトマズ氏は、これはAIの分野における単なる「神の手」の瞬間であると述べた。このプロセスにより、GPT-5 がトップの専門家となり、深い洞察を提供できる真の科学研究パートナーになったことが証明されました。

OpenAI が GPT-5 を人類の王座に導く

GPT-5 はまだ AGI ではありませんが、その強力なプログラミング機能はより多くの開発者を魅了しています。

さらに、その新しいパーソナライゼーションオプションと減少した「錯覚」現象により、より多くの日常ユーザーが ChatGPT の無料版に引き付けられる可能性があります。

これは間違いなく人類に対する挑戦です。

私がこれを言う理由は、コードを書くための最強の AI モデルが Anthropic の Claude モデルであると一般に認識されているからです。

したがって、OpenAI は新しいモデルをリリースしたとき、プログラミングにおける GPT-5 の強力な機能を強く強調しました。

GPT-5 は、これまでで最も強力なプログラミングモデルです。 GPT-5 は、複雑なフロントエンドの生成と大規模なコードベースのデバッグに関して特に優れたパフォーマンスを発揮します。

ほんのヒントを使うだけで、アイデアを現実にする、美しく応答性の高い Web サイト、アプリ、ゲームを直感的かつエレガントに作成できます。

意図は非常に明確です。

アルトマン氏は記者会見で、新モデルはコーディングに優れているだけでなく、ソフトウェアプロジェクトをアイデアから使用可能なコードにワンステップで変換できると述べた。

GPT-5で生成される各種プログラム

AI スタートアップ MagicPath の CEO である Pietro Schirano 氏は、GPT-5 を現在利用可能な最高のプログラミングモデルであり、「優れたコラボレーター」であると述べました。彼はこう言いました。

これは、何千もの家庭に電気が入るようなもので、私たちの発展の仕方を完全に変える「前例のない」変化の瞬間です。

OpenAI は、1 時間のライブストリームの大部分を、一連のベンチマーク結果のデモンストレーションなど、GPT-5 のプログラミング機能の紹介に費やしました。

Cursor、Vercel、JetBrains も GPT-5 の初期テストのレビューを共有しました。

「AI プログラミング」アーティファクト Cursor の CEO である Michael Truell 氏は、これを「これまでに使用された中で最もインテリジェントなコーディングモデル」と賞賛しました。

研究チームは、GPT-5 が優れたパフォーマンスを発揮し、ガイドしやすいだけでなく、他のモデルにはない独特の個性を示していることを発見しました。

検出が難しい根深いエラーを捕捉できるだけでなく、長期にわたるマルチラウンドのバックグラウンド AI エージェントを実行して、他のモデルでは開始するのが難しい複雑なタスクを完了することもできます。

Vercel の創設者兼 CEO である Guillermo Rauch 氏は、「GPT-5 が最高のフロントエンド AI モデルである」と信じています。

v0.dev を使用したときの第一印象は、美しさとコード品質の両方で最高のパフォーマンスを備えた、最高のフロントエンド AI モデルであり、ユニークであるということです。

これは、複雑なコンピューターサイエンスと芸術性の交差点で優れており、過去の単純なコード補完から、デバイスや画面にわたる今日のフルスタックアプリケーションへの飛躍の瞬間を示しています。

従来の IDE 大手 JetBrains の CEO である Kirill Skrygan 氏は、「GPT-5 はプログラミングを覆しました」と述べました。

GPT-5 は、コーディング分野における革命的なブレークスルーです。デフォルトモデルとして、JetBrains AI Assistant とコーディングエージェント Junie のパフォーマンスと品質が 1.5 倍以上向上します。

新しいノーコードプラットフォームである Kineto では、GPT-5 は設計、フロントエンド、および全体的なアプリケーションエクスペリエンスのエンドツーエンドの品質を 2 倍に高めます。

データの観点から見ると、Anthropic の収益増加は主に強力なプログラミング能力によるものです。

The Information によると、Anthropic の年間収益は今月初めの 40 億ドルから 50 億ドルに近づいており、プログラマーやプログラミングアプリケーションにとって頼りになる選択肢としての地位を反映しています。

一方、OpenAI の年間収益は現在 120 億ドルに達しており、この数字は同社の事業の広範さと規模の拡大を反映しています。

未来は知的な推論です

GPT-5 のリリース後、OpenAI の最高研究責任者である Mark Chen 氏と社長の Greg Brockman 氏が、最新の TBPN インタビューで最新モデルの研究開発のハイライトについて語りました。

Mark Chen は最初に、GPT-5 トレーニングの鍵は合成データにあると述べました。

その成功は、インターネットデータ枯渇の限界を完全に突破し、中核分野でより包括的な知識の網羅を達成したことを意味します。

OpenAI が現在行っていることは、世界を「知的推論」の時代に導いており、GPT-5 はこの変革の鍵となります。

より高速でスマートなモデルによりユーザーの介入を減らし、AI を日常の使用と専門的な使用にシームレスに統合できるようにします。

Mark氏は、OpenAIは長年にわたって推論モデルに取り組んできたが、以前はGPT-4とo1を切り替えるなどインターフェースがぎこちなかったと強調した。

現在、GPT-5 は速度の最適化によりシームレスな統合を実現しており、ユーザーは長い推論プロセスを待つ必要がありません。

彼は詳細な例を挙げました。o1 などの以前のモデルは、すべてのタスクに対してより良い答えを提供しましたが、遅すぎました。 GPT-5 は推論機能と非推論機能を組み合わせて「ワンストップショップ」となります。

特に、トレーニング後のチームの貢献により、モデルはコーディングなどの分野で「モンスター」になります。

モデルの命名について尋ねられたとき、マークは数字の命名を「クレイジー」と笑いながら言いましたが、それはうまくいきました。

同氏は、クリエイティブコラボレーションとソフトウェアエンジニアリングにおけるGPT-5の機能は確かにGPT-4.5を上回り、より高速で安価であると述べた。

GPT-5 は、Python REPL とブラウザを含む ChatGPT にとっての「コンピューター」のようなものです。人間が新しいツールを体験するのと同じように、モデルはゼロサンプルで新しいツールを学習できます。

創造性が必要な一部のタスクでは、GPT-5 が驚くべき解決策を提供します。次のステップは、LLM の機能を「理論的枠組み」レベルまで改善し、新しい仮説を提案し、科学研究の革新を支援することです。

複数行並列化、随時配信

OpenAI 内では、チームはアイデアの検討から翻訳、主力モデルのリリースまで、さまざまなタイムスケールで活動しています。

それは単一技術のブレークスルーではなく、多軸の進歩です。

マーク氏はこれを「探索と実行」のパイプラインと表現し、モデルを迅速に反復する同社の能力を強調した。

成長する余地を与え、準備ができたら直接出荷します。

現在、OpenAI モデルは、ハードウェアと推論アーキテクチャの改善の結果を吸収し、推論の高速化におけるオープンソースコミュニティの経験を活用しながら、アルゴリズムの最適化に焦点を当てています。

最後に、ChatGPT は世界の大規模モデルクエリの約 71% を処理し、独自の使用状況データの洞察を提供するとも述べました。

マーク氏は、DUA などのデータに依存する目的は、「ケータリング」バイアスを回避することだけでなく、暗黙の行動シグナルをマイニングしてモデルを改善に導くことであると述べました。

GPT-5 はすでに AI の「自己反復」です

Greg Brockman は GPT-1 から GPT-5 までのすべてのリリースを経験し、各バージョンについての感想を次のようにまとめています。

GPT-1: 公開データを使用して Transformer をトレーニングし、「事前トレーニングが有用である」ことを証明します。

GPT-2：初めて「生成されたものがかっこいいな」と思ったんですけど、ユニコーンの話があって。

GPT-3: 「誰かが喜んで使用する」という閾値を超えていますが、信頼性は低いです。

GPT-4: 非常に使いやすく、コードを書いて健康に関する Q&A ができるようになりました。

GPT-5: 信頼性、実用性、コード機能の新しい標準を設定し、ソフトウェアエンジニアリングは完全に変革されます。

2019年末にGPT-3が登場しました。 OpenAI は、その使命を継続して推進し、資金を調達するために製品を構築する必要があることに気づきました。

彼らは API を作成し、他の人が独自の使い方を模索できるようにすることにしました。

2020 年初頭、Greg Brockman 氏のチームは、API を試してみたい顧客を見つけるために奔走していました。

OpenAI は 2020 年半ばまで API を市場に投入せず、ChatGPT は 2022 年 11 月までリリースされませんでした。

当時、OpenAI は ChatGPT を「Chat with GPT-3.5」と呼ぶことを検討していました。 ChatGPT には WebGPT と呼ばれる前身製品もあり、これも GPT-3.5 に基づいています。 2022 年を通じて、OpenAI は基本的に、ChatGPT の前身である ChatGPT を使用するために人々に料金を支払います。ユーザーは OpenAI に料金を支払うことはなく、OpenAI はそれを使用するために料金を支払わなければなりません。

ChatGPT が爆発することにいつ気づきましたか?

グレッグブロックマンにとって、本当に感動した瞬間は、GPT-4 トレーニングを完了したときでした。

OpenAI が GPT-4 の予備的なポストトレーニングを完了したのは、2022 年 8 月 8 日のことでした。バグは多いですが、創造性が素晴らしくて本当に楽しいです。

OpenAI がモデルのクリエイティブな書き込み機能をバグのあるバージョンのレベルに引き上げるまでに約 1 年半かかりました。

その瞬間、OpenAI は、このモデルが特定のタスクの事後トレーニングを完了できるだけでなく、この点について直接トレーニングされていない場合でも、一般化してインテリジェントな動作を示すことができることに気づきました。これは明らかにキラーアプリです。

したがって、当初予定されていた GPT-4 API のリリースは延期され、ChatGPT が最初に構築され、2022 年 11 月にリリースされました。

振り返ってみると、GPT-3.5は実際にはこれまで社会になかった「使えるモデル」でしたが、OpenAIの目から見るとそれはすべて欠点でした。

GPT-3.5 は、OpenAI のビジネスパラダイムに革命を引き起こしました。つまり、「テストのために人々にお金を払う」から「ユーザーが積極的に購読する」という根本的な変化です。

Ben Thompson 氏は OpenAI を「偶然に生まれた消費者企業」と呼びました。ChatGPT はリリース後 72 時間以内にユーザー 100 万人を超え、驚異的な需要を生み出しました。

その後多くの人が、OpenAI は最初から「スケーリング」が AI 進歩の鍵であることを証明することを目的としていたのではないかと言っていましたが、実際はほぼ逆で、多くの効果のない方法を試した結果、スケーリングだけがうまくいったのです。

そして今、OpenAI は、AI モデルが次世代モデルの作成を支援し、人間には複雑すぎるタスクを監督していることを確認しました。

グレッグ・ブロックマン氏は、「美しさのために意図的にCoT（思考連鎖）を最適化すべきではなく、モデルにその推論プロセスを強制的に隠蔽すべきでもなく、モデルが自由に「アイデア」を発揮できるようにすべきであると述べました。

グレッグブロックマンはかつて、モデルの能力が向上すると、モデルは単純なタスクを完了できるだけでなく、人間には制御が難しい複雑なタスクも実行できるようになると述べました。

この「スケーラブルな監視」の概念は、この課題を解決するために提案されています。強力な AI モデルを使用して複雑なタスクに対して信頼性の高いフィードバックと監視を提供するか、「クリティカルモデル」を通じて人間の専門家を支援して監視を容易にします。これにより、AI システムがよりスマートで複雑になっても、人間の価値観との一貫性が保たれ、安全に管理されることが保証されます。

参考文献:

https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown

https://x.com/thealexbanks/status/1953867094648385990

https://x.com/slow_developer/status/1954097563981812149

https://x.com/tbpn/status/1954249389796651184

https://www.youtube.com/watch?v=gaImbWPGgtU