本日、OpenAI は、これまでで最大かつ最も知識豊富なモデルである新しい非推論モデル GPT-4.5 をリリースしました。名前が示すように、GPT-4.5 は GPT-4o に基づいており、事前トレーニング プロセス中にさらに拡張されました。 OpenAI は、GPT-4.5 は最先端のモデルではないが、最大の LLM であり、GPT-4o よりも世界的な知識、優れた執筆スキル、洗練された個性を備えていることを確認しました。
ベンチマーク テストのデータは、GPT-4.5 が GPT-4o に比べて大幅なアップグレードではないことを示しています。 SWE-benchVerified ベンチマーク テストでは、GPT-4.5 は 38% に達しました。これは、GPT-4o より 2 ~ 7% 高く、OpenAI の O3 ベースのディープリサーチモデルより 30% 低いです。比較すると、Anthropic の Claude3.7Sonnet は、SWE ベンチ検証で 62.3% に相当するパフォーマンスを達成しました。
最近、OpenAI の Preparedness チームは、機能開発、設計、バグ修正などの実際のソフトウェア エンジニアリング タスクにおける LLM のパフォーマンスを評価するため、SWE-Lancer と呼ばれる新しいベンチマークを開発しました。この新しいベンチマークでは、GPT-4.5 モデルは ICSWE タスクの 20%、SWEManager タスクの 44% を解決でき、OpenAI の o1 モデルよりわずかに改善されました。
新しいモデルの詳細はここで読むことができます:
https://openai.com/index/introducing-gpt-4-5/
セキュリティの面では、OpenAI のセキュリティ アドバイザリー グループは、準備状況評価の結果に基づいて、新しい GPT-4.5 モデルを全体的に中リスクに分類しました。また、サイバーセキュリティとモデルの自律性のスコアも低くなりました。
新しい GPT-4.5 モデルのリサーチ プレビューは、ChatGPTPro ユーザーとすべての有料プランの開発者が API 経由で利用できるようになりました。来週、ChatGPTPlus ユーザーもこの機能を利用できるようになります。