約 2 か月待ち、ソーシャルメディアを席巻していた Anthropic Mythos モデルが、ついに本日正式にリリースされました。 2か月前、アンスロピックは、その最強のモデルは危険すぎて公開できず、100以上の機関にのみ送ったと述べた。現在、そのような機能は誰にでも公開されています。一般にリリースされたバージョンは Claude Fable 5 と呼ばれます。真に「無制限」の Mythos 5 は、まだ少数のパートナーのみに予約されています。つまり、使用できる最も強力なクロードは、境界を追加したミトスです。


「公開」という言葉そのものよりも、このガードレールのデザインが特筆すべきもので、拒否しないことで安全を確保している。
Anthropic は今回、Claude Fable 5 と Claude Mythos 5 という 2 つのモデルを一度にリリースしました。これらは実際には同じ基礎モデルですが、唯一の違いは安全ガードレールです。
Fable 5 は、すべてのユーザーにセキュリティ分類子の完全なセットを提供します。 Mythos 5 では、これらの制限の一部が削除され、Project Glasswing のネットワーク セキュリティ パートナーにのみ制限が提供されます。
率直に言って、寓話5は「ガードレールのある神話」。
Anthropic の通常のスタイルと同様に、モデル名自体にもいくつかの考えが隠されています。
アントロピックによれば、寓話は「語られる物語」を意味するラテン語のファブラに由来しており、ギリシャ神話と同じ起源を持っています。 2 つの名前は同じものを指しますが、唯一の違いは、一方に境界があることです。
タイムラインを少し戻します。今年 4 月、Anthropic は Project Glasswing を立ち上げ、Mythos レベルのモデル (Claude Mythos Preview) を最初にリリースしたとき、それはサイバーセキュリティおよび重要インフラ機関の少数のグループにのみ提供されました。先週までに、リストは十数か国、百以上の機関に拡大した。当時の公式声明は、そのようなモデルは悪者の手に渡れば重大な損害を引き起こす可能性があるため、公表できないとのことでした。

2 か月後には、「危険すぎて公開できない」状態から「誰でも利用できる」状態になりました。その間に何が起こるかが、このリリースの本当の主人公です。
ほとんどの AI の安全メカニズムは「拒否」です。答えるべきではない質問をすると、「申し訳ありませんが、私はあなたを助けることができません」と告げられます。
Fable 5 では別のアプローチが取られています。安全とは、安全を拒否することを学ぶことではなく、危険が生じたときに安全を置き換えることです。
具体的には、Fable 5 には一連の独立した分類子が背後にぶら下がっています。
この一連の分類子が、リクエストが 3 つの高リスク領域 (サイバー攻撃、生化学兵器、モデルの蒸留 (独自のモデルをトレーニングするためにモデルの機能を「盗む」ことを指す)) に該当すると判断した場合、Fable 5 に回答させるのではなく、静かに質問を Opus 4.8 に転送して、「ダウングレードが発生した」ことを通知します。
この設計で興味深いのは、「セキュリティ」と「機能」を 2 つの異なるものに分離していることです。あなたはミトスレベルの力を購入していますが、最も危険な 3 つの領域では、実際にはオーパスと話していることになります。Anthropic 自身の声明では、Opus 4.8 にダウングレードした経験は、Fable によって直接拒否されるよりも優れているということです。結局のところ、Opus 4.8 自体も非常に強力なモデルです。

Anthropic によると、会話の 95% 以上では格下げがまったく引き起こされません。言い換えれば、ほとんどの人にとって、あなたが使用する Fable 5 のエクスペリエンスは、パートナーの手にある「完全な」Mythos 5 とほぼ同じです。
それで、このガードレールは強いのでしょうか? Anthropic 社は、外部のレッドチームによるテストを 1,000 時間以上実施したが、それを回避できる「ユニバーサル ジェイルブレイク」方法 (モデルがすべてのセキュリティ制限を完全に無視できるようにするユニバーサルな方法) を誰も見つけられなかったと述べました。
もちろん、ある程度の余地も残しています。ジェイルブレイクを完全に排除することはおそらく不可能です。目標は、あらゆる脆弱性を大規模に悪用するには「遅すぎてコストが高すぎる」ようにすることだけです。
しかし、このメカニズムには代償があり、Anthropic 自身が最初にそれを述べました。分類子が厳密に調整されすぎているため、通常のリクエストが誤って破損する可能性があります。ウイルスを研究する生物学者や侵入テストを行うセキュリティ エンジニアは、正当な仕事の過程で不可解にも「格下げ」される可能性があります。当局者は、これが一部のユーザーに不快感を与えることを認め、将来的には徐々に範囲を絞り、誤報を減らすと約束した。
私はこれについてしばらく考えましたが、実際には非常に賢いですが、非常に無力な妥協でもあると感じました。賢いのは、「撃つ」か「送らない」かの選択ではなく、能力をカットすることです。しかし、残念ながら、このカットは正確ではありません。何か問題が起こる前にオンラインに接続するために、Anthropic は失敗するよりも誤って殺すことを選択します。
危険なほど強い者だけがこのガードレールを受けるに値します。
セキュリティについて長い間話してきた後、「セキュリティはどれほど強力なのか、そして敵に対してそれほど脆弱になる価値があるのか?」と疑問に思うかもしれません。
当初はベンチマーク テストを省略したかったのですが、ベンチマークを読みすぎると感覚が麻痺してしまいます。言うまでもなく、Anthropic には長いリストがあり、すべてのカテゴリでほぼ 1 位にランクされています。
最もハッタリが効いているのは Stripe によるものです。 Anthropic によると、Stripe は Fable 5 を使用して 5,000 万行の Ruby コード ベースで完全なデータベース移行を実行し、これは 1 日で完了しました。このタスクは当初、チーム全体が手作業で 2 か月以上かかりました。さらに重要なのは効率です。Cognition の FrontierCode プログラミング テストでは、Fable 5 が「中程度のコンピューティング消費電力」で最高のスコアを獲得し、トークン効率は前のクロードよりも大幅に優れています。
これは、Anthropic がトークンの効率性、つまり長期間自律的に動作し、毎ターン何百万ものトークンを消費できるモデルを繰り返し強調する理由も説明していますが、それでも「ナンセンス」である場合、コストが非常に高くなり、誰もそれを使用する余裕がありません。
視覚の進歩はより直感的です。以前、クロードがポケットモンスター ファイアレッドをプレイしたとき、彼はつまずきながら進めるために補助ツールチェーンの完全なセットに頼らなければなりませんでした。 Fable 5 は、最も基本的なビジュアル インターフェイスのみを使用して、自分でレベルを完了しました。また、数枚のスクリーンショットを使用して Web アプリケーションのソース コードを復元することもできます。
Anthropic 社内のタンパク質設計専門家は、Mythos 5 を使用して医薬品設計プロセスのいくつかの側面を約 10 倍高速化しました。 2 つ目はさらに誇張されています。ゲノミクス研究では、Mythos 5 がほぼ完全に自律的な状態で 1 週間以上連続して動作し、機械学習モデルを独自にトレーニングしました。このモデルのパフォーマンスは、Science 誌に掲載された同様のモデルのパフォーマンスを上回りましたが、そのボリュームは後者のわずか 1% でした。
モデルが独立して 1 週間の科学研究を完了し、トップジャーナルに掲載される人間の結果よりも優れた結果を得ることができれば、「ウイルスの設計に使用されるかどうか」という心配はもはや根拠のないものではなくなります。これがまさに、Anthropic が生化学の分野を個別にロックしている理由です。同じ能力が研究者の手には解毒剤ですが、別のペアの手に渡れば別のものになる可能性があります。

ここでは力と危険が表裏一体です。ガードレールはモデルが良くないから追加されるのではなく、それが非常に優れているからこそ追加されます。
Anthropic が Mythos を完全な監視を必要とする危険な物体として説明していることがわかります。しかし、公式の説明以外にも、異なる声もあります。
Mythos のエンタープライズ パイロットに参加したと主張する ID @zekramu の X ユーザーが、最近、丸 1 日使用した感想を共有するために投稿しました。彼の説明は記者会見での説明と完全には一致していません。
彼によると、Mythos は特にセキュリティ調査タスクにおいて非常に強力です。最高構成の Opus や GPT-5.5 よりも明らかに優れており、まるでこの種の作業用に特別にチューニングされているかのようです。しかし、「強い」ということと「人類を脅かす」ということは別のことです。公式には素晴らしいと言われていたこのモデルが、Bazel (コード構築ツール) に基づく彼の会社のプロセスの前で行き詰まり、多くのカスタム ロジックが変更されたと彼は詳細を説明しました。結局、最初にコードをコンパイルしてからモデルを実行する必要がありました。

さらに興味深いのは、ガードレール自体です。彼の説明によると、Anthropic がモデルと一緒に送ったのはおなじみのクロード コードではなく、「モデルのエスケープを防ぐ」ために特別に設計された一連の動作環境、いわゆるプロジェクト グラスウィングであり、彼の意見では主にこのサンドボックスです。しかし、彼は環境が非常に厳しいと感じており、一部の制限は実際にはまったく効果を発揮していないのではないかとさえ疑っていました。彼はまた、公式の境界を回避し、サンドボックスの外でモデルを実行したとも述べた。
記録に関しては、Mythos 社の製品にこれまで発見されていなかった多数のセキュリティ脆弱性が発見され、チームがセキュリティ戦略を再考するのに十分であると同氏は述べました。
彼の結論は熟考する価値があります。このモデルは安全性の攻撃と防御の点で 2 つのブラシを備えていますが、彼の目には、それは Anthropic が意味するような「みんなの頭の上にぶら下がっている」種類の存在ではなく、非常に高価で非常に特殊なツールのようなものです。
一般の人が一番気になる、料金やいつから使えるのか、という話に戻りましょう。
価格に関しては、Fable 5 と Mythos 5 の API 価格は、100 万入力トークンあたり 10 米ドル、100 万出力あたり 50 米ドルです。水平方向の比較は興味深いものです。Mythos Preview の 25/125 米ドルと比較すると、60% 安いです。しかし、それは Opus 4.8 の 5/25 米ドルの完全に 2 倍の値段です。 OpenAI の GPT-5.5 (5/30 米ドル) と比較すると、入力は 2 倍、出力は約 67% 高価です。

言い換えると、これはこれまでで最も強力なクロードであり、最も高価なクロード モデルの 1 つです。強いですが、安くはありません。
前述の @zekramu も状況証拠と考えることができます。彼の推定によると、パイロット段階だけでの投資は数百万ドルのレベルに達しています。 「高すぎる」という言葉が彼は何度も繰り返した。

加入者は時間枠にも注意を払う必要があります。本日から 6 月 22 日まで、Pro、Max、Team、Enterprise エディションのユーザーは Fable 5 を無料で使用できます。 6 月 23 日以降、引き続き使用するには追加の使用クレジットを購入する必要があります。
アンスロピック社は、生産能力が追いつくと、『フェイブル 5』が再びサブスクリプションの標準になるだろうと述べたが、具体的な時期については明らかにしなかった。 API および従量課金制の企業顧客はこのリズムの影響を受けず、本日より通常どおり電話を継続します。
この少しぎこちない「最初は無料、次に料金を請求し、後で相談する」ということは、実際には、生産能力が不十分であることを示しています。アンスロピックは自ら認めているが、『フェイブル 5』の需要は「非常に高く、予測するのが難しい」と予想している。誰もが利用できる最強のモデルは、まずコンピューティング能力レベルを通過する必要があります。
このリリースでは、非常に無視しがちですが、立ち止まって検討するのに最も価値があるのは、別のポリシーです。
Fable 5 以降、すべての Mythos レベルのモデルのトラフィックは、ファーストパーティ プラットフォームとサードパーティ プラットフォームの両方を対象として 30 日間保持されることが義務付けられます。
Anthropic は、このデータをモデルのトレーニングには使用せず、多くのリクエストに散在し、それぞれが正常に見える新しいタイプのジェイルブレイクや複雑な攻撃を特定するなど、セキュリティ監視にのみ使用することを約束します。この目的のために、彼らは新しいプライバシー保護も追加しました。すべての手動訪問は記録され、基本的に 30 日後に削除されます。
合理的ですね。しかしもともと「データ保持ゼロ」を理由に Anthropic を選択した企業顧客にとって、これは再評価が必要な変更です。
最も強力なモデルを使用すると、請求額が高くなるだけでなく、データがさらに 1 か月間 Anthropic のサーバーに留まることになります。
ここではセキュリティとプライバシーが同じスケールで扱われます。 Anthropic が出した答えは、前例のない攻撃を防ぐために、全員のトラフィックを 30 日間監視する必要があるというものです。このアカウントは費用対効果が低く、各企業が独自に計算する必要があると思います。
これらを総合すると、『Fable 5』の真の新しさは、その強力さではなく、『Anthropic』において新たな道を歩んだということかもしれない——危険すぎて公開できない機能を、誰もが使用できる製品に変える方法。
その方法は、分類子を使用して機能を横断し、拒否ではなくダウングレードを使用し、秘密の監視ネットワークとして 30 日間の保持を使用することです。
完璧ではありません。偶発的な損傷を引き起こす可能性があり、費用も高額になり、データについて心配する人もいます。しかし、これは少なくとも、すべての最先端の研究室が遅かれ早かれ直面するであろう質問への答えとなる。つまり、手に持った何かが人を傷つけるほど強い場合、それを数人しか入れない部屋に閉じ込めるか、それとも十分な強度のガードレールを設置して全員の手に渡せるか?
人間は後者を選択しました。

このガードレールが十分に強いかどうかについては、今回ストレステストを行っているのは 100 を超える機関ではなく、全員です。