OpenAI のメンタルヘルスセキュリティ責任者が人間性との整合性 Team

OpenAI で過去 1 年間最も物議を醸した問題の 1 つは、チャットボットユーザーが会話の中で精神的健康上の不調の兆候を示した場合に、モデルがどのように正確に対応すべきかということであり、この分野のセキュリティ研究責任者である Andrea Vallone 氏が退職し、Anthropic に入社しました。

ヴァローネ氏は以前、OpenAIで過去1年間に責任を負った研究には、従うべき「既存の前例がほとんどない」とLinkedInに投稿した。中心的な問題は、ユーザーの感情的な過剰依存や精神的健康危機の初期の兆候に直面したときに、モデルがどのように対応すべきかということです。彼女は OpenAI に 3 年間勤務し、その間 GPT‑4 と次世代推論モデル GPT‑5 の導入に取り組む「モデルポリシー」研究チームを設立して指揮し、「ルールベースの報酬」を含む業界の主流のさまざまなセキュリティトレーニング方法の設計に参加しました。

現在、Vallone は Anthropic の調整チームに加わりました。このチームは、大規模なモデルが引き起こす可能性のある重大なリスクを特定して理解し、それらに対処する方法を検討する任務を負っています。彼女は、Anthropic に移る前に、OpenAI の「セキュリティの文化とプロセスが輝かしい製品に取って代わられた」という懸念を理由に 2024 年 5 月に退職した OpenAI の元セキュリティ研究責任者、Jan Leike 氏に直属します。

過去 1 年間、主要な AI スタートアップ企業は、AI チャットボットとユーザーのメンタルヘルスに関連するリスクをめぐって世間の論争を巻き起こし続けてきました。一部のユーザーは、チャットボットと長時間会話した後に心理的困難をさらに深め、長時間の会話中に安全防御が徐々に崩壊してしまいました。このツールに「打ち明けた」後、十代の若者が自殺したり、大人が殺人を犯したりするような極端な事件さえ起きています。いくつかの事件をきっかけに、遺族は関連会社に対して不法死亡訴訟を起こしている。米上院小委員会もこの問題に関する公聴会を開催し、このような事件におけるチャットボットの役割と責任を調査するよう求め、セキュリティ研究者らはより強力な解決策を考え出すよう求められた。

Anthropic の調整チームリーダーの 1 人である Sam Bowman 氏は LinkedIn で、「Anthropic がこの問題にどれほど真剣に取り組んでいることを誇りに思っている」と述べ、同社は「AI システムがどのように動作すべきか」について真剣に考えていると語った。ヴァローネ氏は木曜日、LinkedInの新しい投稿で、「調整と微調整を通じて、新しい状況におけるクロードの行動を形作ることに焦点を当て、アンスロピックで研究を続けることを楽しみにしている」と書いた。