OpenAI Enhanced Security チーム、取締役会に危険な AI

· 生産中のモデルは「安全システム」チームによって管理されます。開発中の最先端モデルには、モデルがリリースされる前にリスクを特定して定量化する「準備」チームがいます。次に、「スーパーアライメント」チームがあり、「超知能」モデルの理論的ガイドラインに取り組んでいます。 OpenAIは現地時間12月18日、有害な人工知能の脅威から守るために内部セキュリティプロセスを拡張すると公式ウェブサイトで発表した。新たな「セキュリティ諮問グループ」がテクノロジーチームのトップに位置し、取締役会に拒否権を与えて経営陣に勧告を行うことになる。

このアップデートが注目を集めた主な理由は、OpenAI CEO の Sam Altman が取締役会によって解任された理由の 1 つが、大規模モデルのセキュリティ問題に関連していると思われたためです。高レベルの人事混乱の後、OpenAI取締役会の2人の「減速主義者」メンバー、イリヤ・サツケヴァー氏とヘレン・トナー氏が取締役の座を失った。

この記事の中で、OpenAI は、ますます強力になっているモデルによる壊滅的なリスクを追跡、評価、予測、防止するための OpenAI のプロセスである最新の「準備フレームワーク」について説明しています。壊滅的なリスクをどのように定義するか? OpenAIは「壊滅的リスクとは、数千億ドルの経済的損失をもたらしたり、多くの人に重傷を負わせたり死亡させたりする可能性のあるあらゆるリスクを意味しており、これには存続リスクも含まれるがこれに限定されない」と述べた。

3 組のセキュリティチームが、異なる時間枠とリスクに対応します。

OpenAI公式サイトの情報によると、本番環境のモデルは「セキュリティシステム」チームによって管理されているとのこと。開発中の最先端モデルには、モデルがリリースされる前にリスクを特定して定量化する「準備」チームがいます。そして、「スーパーアライメント」チームがあり、「超インテリジェント」モデルの理論的ガイドラインに取り組んでいます。

OpenAIのチームは、サイバーセキュリティ、「説得」（つまり、偽情報）、モデルの自律性（つまり、独自に行動する）、CBRN（新しい病原体を作成する能力などの化学的、生物学的、放射線学的、核の脅威）の4つのリスクカテゴリに基づいて各モデルを評価する。

OpenAI はさまざまな緩和策を想定しています。たとえば、モデルはナパーム弾やパイプ爆弾の製造プロセスの記述に関して合理的な留保を維持します。既知の緩和策を考慮した後、モデルに依然として「高」リスクがあると評価された場合、そのモデルは導入されません。また、モデルに「重大」なリスクが存在する場合、そのモデルはそれ以上開発されません。

また、モデルを作成した人が、必ずしもモデルを評価して推奨事項を作成するのに最適な人物であるとは限りません。このため、OpenAI は、技術レベルで研究者のレポートをレビューし、より高い観点から推奨事項を作成する「機能横断型セキュリティ諮問グループ」を結成し、その「未知の未知点」を発見することを期待しています。

このプロセスでは、これらの推奨事項を取締役会と経営陣の両方に送信する必要があり、取締役会が業務を継続するか中止するかを決定しますが、取締役会はその決定を取り消すことができます。これにより、リスクの高い製品やプロセスが取締役会の知らないうちに承認されることを回避できると期待されます。

しかし、外部の世界が依然として懸念しているのは、専門家委員会が勧告を出し、CEOがその情報に基づいて決定を下した場合、OpenAIの現在の取締役会は本当に反論してブレーキをかける権限を与えられていると感じるだろうかということだ。もしそうなら、外部の人々はそれについて聞くでしょうか？現時点では、独立した第三者監査を要請するという OpenAI の取り組みを除けば、その透明性の問題は実際には解決されていません。

OpenAI「Readiness Framework」の 5 つの重要な要素:

1. 評価と採点

評価を実行し、モデルの「スコアカード」を継続的に更新します。トレーニング実行中の 2 倍の効率的な計算を含む、すべての最先端のモデルを評価します。私たちはモデルを限界まで押し広げます。これらの調査結果は、最先端モデルのリスクを評価し、提案された緩和策の有効性を測定するのに役立ちます。私たちの目標は、不安の特定の端を検出して、暴露のリスクを効果的に軽減することです。モデルの安全性レベルを追跡するために、リスク「スコアカード」と詳細なレポートを作成します。

「スコアカード」はすべての最先端モデルを評価します。

2．リスクしきい値を設定する

セキュリティ対策を発動するリスクしきい値を定義します。次の初期追跡カテゴリに基づいてリスクレベルのしきい値を定義しました: サイバーセキュリティ、CBRN (化学的、生物学的、放射線学的、核の脅威)、説得、およびモデルの自律性。 4 つのセキュリティリスクレベルを指定しており、緩和後のスコアが「中」以下のモデルのみをデプロイできます。緩和後のスコアが「高」以下のモデルのみがさらに開発できます。また、リスクが高いまたは深刻なモデルに対しては、追加のセキュリティ対策（事前緩和）も実施します。

リスクレベル。

3．技術的な作業と安全性に関する意思決定を監督するための新しい運営体制を設定する

当社は、技術的な作業とセキュリティ上の決定を監督する専任チームによる運用体制を確立します。準備チームは、最先端のモデル機能の限界を調査し、評価を実施し、レポートを作成するための技術的な作業を推進します。この技術的な作業は、OpenAI セキュリティモデルの開発と展開に関する意思決定にとって重要です。私たちはすべての報告書を検討し、経営陣と取締役会の両方に報告するために、部門横断的なセキュリティ諮問グループを設立しています。意思決定者はリーダーシップですが、取締役会は決定を覆す権限を持っています。

技術的な作業と安全に関する意思決定を監督するための新しい運営体制。

4. セキュリティと対外的な説明責任を強化する

私たちは安全性と外部の説明責任を向上させるためのプロトコルを開発します。準備チームは定期的にセキュリティ訓練を実施し、当社のビジネスと当社の文化をストレステストします。一部のセキュリティ問題はすぐに発生する可能性があるため、緊急の問題にフラグを立てて迅速に対応することができます。私たちは、OpenAI 外部の人々からフィードバックを受け取り、できれば資格のある独立した第三者によるレビューを受けることがこの作業に役立つだろうと考えました。今後も他のメンバーにレッドチームを形成してもらい、モデルを評価してもらい、更新情報を外部に共有する予定です。

5. その他の既知および未知のセキュリティリスクを軽減する

その他の既知および未知のセキュリティリスクの軽減を支援します。私たちは、外部関係者だけでなく、セキュリティシステムなどの内部チームとも緊密に連携して、実際の不正行為を追跡していきます。また、スーパーアライメントと協力して、ミスアライメントの緊急リスクを追跡します。また、私たちは、スケールの法則での以前の成功と同様に、リスクを事前に予測できるように、モデルのスケールに応じてリスクがどのように進化するかを測定する新しい研究も開拓しています。最後に、継続的なプロセスを実行して、新たな「未知の不明点」を解決しようとします。