OpenAI が AI のセキュリティを確保するための新しいオープンウェイトモデルをリリース

OpenAI は本日、AI セキュリティ分野向けの 2 つの新しいオープンウェイトモデル、gpt-oss-safeguard-120b と gpt-oss-safeguard-20b の発売を発表しました。これらのセキュリティ分類モデルは、以前にリリースされた gpt-oss シリーズのオープンモデルに基づいて最適化されており、Apache 2.0 ライセンスの下でもオープンであるため、誰でも自由に使用、変更、展開できます。

新しいモデルの最大の特徴は、「画一的な」セキュリティシステムを放棄し、カスタムセキュリティポリシーに基づいて直接推論と分類を実行できる機能を開発者に提供することです。開発者は独自のセキュリティポリシーと推論中に検出されるコンテンツを入力でき、モデルはポリシーに基づいて分類し、推論理由を示します。ポリシーは使用中に変更でき、パフォーマンスを向上させるために柔軟に調整できます。 gpt-oss-safeguard は、ユーザーメッセージ、チャット返信、さらには完全な会話を分類できます。

OpenAI は、この新しいタイプのモデルは次の状況に特に適していると指摘しています。

潜在的な危険が出現または進化しており、政策は迅速に適応する必要があります。
一部の領域は非常に粒度が高く、従来の小型分類器では処理することが困難です。
開発者には高品質のサンプルが多数不足しており、プラットフォーム上のさまざまなリスクに対応する高レベルの分類器をトレーニングすることが困難です。
分類結果の品質と解釈可能性は、パフォーマンスの遅延よりも優先されます。

gpt-oss-safeguard にも特定の制限があることに注意してください。 OpenAI は、プラットフォームに多数のラベル付きサンプルがあり、従来の分類子をトレーニングできる場合、複雑なシナリオやリスクの高いシナリオでは後者のほうが gpt-oss-safeguard より優れている可能性があり、カスタマイズされたモデルの精度が高くなる可能性があると述べています。また、この新モデルは処理速度が遅く、リソース消費も大きいため、大規模コンテンツのリアルタイム上映には不向きです。

現在、gpt-oss-safeguard-120b および gpt-oss-safeguard-20b は無料でダウンロードできます。

https://huggingface.co/collections/openai/gpt-oss-safeguard