Fable 5 の発売計画が発表 Anthropic は AI の標準を設定したいと考えているjailbreak

7月1日のニュースによると、現地時間火曜日、Anthropicは、Claude Fable 5とClaude Mythos 5が米国の輸出規制の対象となり、アクセスが停止され、その後オンラインで復元されるまでの全過程を詳細に説明した長い記事を公開した。これは単純な復旧の発表ではありません。さらに重要なのは、Anthropic が「AI モデルのジェイルブレイクの深刻度」を業界のスコアリングフレームワークに変え、最先端のモデルリリースを政府のリリース前テストとセキュリティコラボレーションにさらに組み込んでいることです。

Anthropic の発表によると、Fable 5 は 7 月 1 日から世界中のユーザーに公開され、Claude Platform、Claude.ai、Claude Code、Claude Cowork が対象となります。 Pro、Max、Team、および一部の Enterprise ユーザーは、7 月 7 日までに週次使用量割り当ての最大 50% まで Fable 5 を使用できます。その後も使用クレジットを通じて引き続き使用します。 Anthropic はまた、できるだけ早く AWS、Google Cloud、Microsoft Foundry へのアクセスを再び有効にする予定であると述べた。

Mythos 5 は回復範囲が狭いです。 Anthropic 社は、6 月 26 日の米国政府の承認を受けて、同社は米国の機関グループの Mythos 5 へのアクセスを回復し、Glasswing プロジェクトのより多くの国内外のパートナーに拡大するために引き続き政府と調整していくと述べた。

「脱獄」の報告により、モデルは棚から削除されました

この混乱は6月12日に始まった。

アンスロピックは、米国政府が同日、クロード・ファブル5とクロード・ミトス5の輸出規制を実施し、外国人に対しこれら2つのモデルへのアクセスを制限するよう求めたと述べた。ここでの「外国人」には、米国外のユーザーだけでなく、米国内の非米国国民も含まれます。この指令はすぐに発効し、Anthropic にはすべてのユーザーの国籍をリアルタイムで確認する信頼できる方法がなかったため、同社は最終的にすべてのユーザーへのアクセスを一時停止することを選択しました。

Anthropic の最新のレビューによると、Fable 5 と Mythos 5 は 6 月 9 日にリリースされました。この 2 つの基礎となるモデルは同じですが、異なるシナリオを対象としています。Fable 5 はより強力なセキュリティ保護を追加し、より広範囲の一般的なユーザーシナリオに使用されます。 Mythos 5 は保護機能が低く、防御的なネットワークセキュリティタスクのために少数の信頼できる Project Glasswing パートナーのみが利用できます。

米国政府の介入の直接の理由は、アマゾンの研究者らの報告書だった。報告書によると、研究者らは Fable 5 のセキュリティ保護をバイパスする方法を発見し、モデルがいくつかのソフトウェアの脆弱性を特定できるようにしました。あるケースでは、モデルは関連する脆弱性を悪用する方法を示すコードも生成しました。

Anthropic の回答: このインシデントは、Fable 5 のセキュリティ保護における境界例を暴露しましたが、独自の Mythos レベルのサイバー攻撃能力を解放するものではありませんでした。同社は、テストの結果、Claude Opus 4.8、GPT-5.5、Kimi K2.7 などの機能が低いモデルでも同じ脆弱性を特定できる可能性があると述べました。単一の脆弱性悪用デモンストレーションを生成する場合、複数のモデルでも同様の結果が得られる可能性があります。

要するに、Anthropic が強調したいことは次のとおりです。これは、Fable 5 に特有の危険な機能が突然現れたものではなく、曖昧な領域で安全分類子がバイパスされているということです。

新しい分類子は 99% 以上をブロックできますが、偶発的な損傷を引き起こす可能性があります

アクセスを復元するために、Anthropic は、Amazon レポートで言及されている動作を特に傍受する新しいセキュリティ分類子をトレーニングしました。

Anthropic によれば、新しい分類器は Amazon のレポートに記載されている特定のバイパス手法を 99% 以上のケースでブロックできるとのことです。傍受された Fable 5 リクエストは、処理のために Claude Opus 4.8 に転送されます。米国商務省傘下の AI 標準とイノベーションセンター (CAISI) も、新旧両方の人類保護セットをテストしました。

ただし、修正には代償が伴います。

Anthropic 氏は、新しい分類子が日常のプログラミングやデバッグのタスク中に、良性のリクエストを誤って分類する頻度が高くなることを認めました。つまり、通常のセキュリティ調査、コードのデバッグ、または脆弱性分析リクエストの一部がシステムによってブロックされる可能性があります。同社は今後も最適化を続け、本物の不正行為と正当なリクエストを区別するよう努めると述べた。

これは、フェイブル 5 事件の核心的な問題でもあります。モデルの機能が強力であればあるほど、防御的なセキュリティの取り組みにさらに役立ちます。しかし、同じ機能を攻撃に使用することもできます。メーカーは、「不正なリクエストをブロックできるか」に答える必要があるだけではありません。だけでなく、「適切なリクエストをブロックできるか?」

Anthropic は AI の脱獄を採点したい

この長い記事の中で最も注目すべき部分は、Fable 5 の回復アクセスではなく、Anthropic が提案した「AI Jailbreak Severity Framework」です。

Anthropic 氏は、AI 脱獄の深刻さを判断するための統一基準は現在業界に存在しないと考えています。その結果、新しいバイパス方法が登場するたびに、開発者はそれをどれだけ早く修正すべきかが分からず、政府には介入が必要かどうかを判断するための一貫した基準が欠けています。

Anthropic は、Amazon、Microsoft、Google、その他の Glasswing パートナーとフレームワークの草案を作成しています。脱獄のリスクを次の 4 つの側面に沿ってスコアリングすることを推奨しています。

まずは能力の獲得。ジェイルブレイクされた後、モデルは既存の公開ツールや弱いモデルができないことを行うことができますか?他のツールの機能に到達するだけであれば、リスクは低くなります。専門家レベルの攻撃を大幅に加速できる場合、リスクは高くなります。

2番目に、機能の範囲です。同じジェイルブレイク方法でも、非常に狭いタスクのみをロック解除できる場合もあれば、複数の種類の攻撃ターゲットや技術的ルートをカバーする場合もあります。

第三に、兵器化の難しさ。このジェイルブレイクを実際の攻撃に変えるには、どれだけの手作業、ヒント、試行錯誤が必要になるでしょうか。 1 つまたは 2 つのプロンプトで一貫した成功が得られる場合、リスクは高くなります。

4 つ目は、発見可能性です。この方法を見つけるには専門的な知識が必要ですか、それともすでにオンラインで広く入手可能ですか。

このフレームワークの重要性は、「AI 脱獄」を一般的なパニックから、伝達可能、分類可能、修復可能な問題に分解しようとしている点です。将来モデルに脆弱性が発見された場合、メーカーや政府はまず、これが低リスクの境界例なのか、それともただちに軽減策の導入が必要な高リスクのジェイルブレイクなのかを判断できます。

Anthropic はまた、セキュリティ研究者が Fable 5 のネットワークセキュリティジェイルブレイクの可能性について訴訟を提出できるようにする新しい HackerOne プロジェクトを立ち上げることも計画しています。

最先端モデルの発売は「政府もまずは検討しなければ」になりつつある

Anthropic は記事の最後で、一連の長期的な取り組みも示しています。国家安全保障に関連する最先端の機能を含むモデルについては、指定された政府パートナーへの早期アクセスを提供し、政府がモデルをテストし、広範囲にリリースされる前に保護をサポートできるようにします。重要な脱獄や虐待パターンが発生した場合、情報はより迅速に政府と共有されます。同時に、AI セキュリティの評価と研究に参加するために、専門のチームとコンピューティング能力が投資されます。

これは、最先端の AI モデルのリリースプロセスが変化していることを意味します。

以前は、モデルのリリースは主に、トレーニング、評価、レッドチームのテスト、発売という企業の製品リズムに基づいていました。 Fable 5 の事件後、少なくともサイバーセキュリティなどの高リスクの分野では、公開プロセスに政府による公開前評価、情報共有、リスク交渉の層が追加される可能性があります。

ユーザーにとって、Fable 5 の再開は朗報です。しかし、企業顧客にとって、この事件はより現実的なことを思い出させました。最先端モデルの入手可能性は、テクノロジーと価格だけでなく、ポリシーのステータスにも左右されるということです。モデルがリリースされた場合でも、安全性に関する紛争により突然停止され、その後、追加の保護、交渉、政府のテストを経て再開される可能性があります。

アンスロピック社にとって、このレビューは上場廃止の理由の説明であるだけでなく、発言権をめぐる戦いでもある。同社は、外部の世界がフェイブル5が制御不能なモデルではなく、過度の注意を払って処理される境界線のケースであると信じてもらうことを望んでいる。同時に、業界の焦点を「モデルが脱獄できるかどうか」から「脱獄の重大度を判断する方法」に移したいとも考えている。

それがこの発表の本当に重要な兆候かもしれません。 Fable 5 の再起動はその結果にすぎません。最先端のモデルがどのようにテストされ、リリースされ、将来的に政府がどのように介入するかは、この嵐によって残された新たな疑問です。