Microsoft の人工知能研究者は、GitHub でオープンソースのトレーニング データ バケットをリリースした際に、秘密キーやパスワードを含む数十テラバイトの機密データを誤って漏洩してしまいました。 TechCrunchと共有したリサーチノートの中で、クラウドセキュリティスタートアップのWizは、クラウドでホストされているデータの偶発的な公開に関する進行中の作業の一環として、Microsoftの人工知能研究部門に属するGitHubリポジトリを発見したと述べた。

この GitHub リポジトリは、画像認識用のオープン ソース コードと人工知能モデルを提供しており、読者に Azure Storage URL からモデルをダウンロードするように指示しています。しかし、Wiz は、URL がストレージ アカウント全体にアクセス許可を付与するように構成されており、その結果、誤ってさらに多くの個人データが公開されていることを発見しました。

このデータには、Microsoft 従業員 2 人の PC の個人バックアップなど、38 TB の機密情報が含まれていました。このデータには、Microsoft サービスのパスワードとキー、数百人の Microsoft 従業員からの 30,000 件を超える内部 Microsoft Teams メッセージなど、その他の機密個人データも含まれていました。

Wiz 氏によると、2020 年にこのデータを公開した URL も、「読み取り専用」権限ではなく「フル コントロール」権限を許可するように誤って設定されており、場所を知っている人であれば誰でも、悪意のあるコンテンツを削除、置き換え、挿入できる可能性がありました。

Wiz 氏は、ストレージ アカウントが直接公開されていないと指摘しました。代わりに、Microsoft AI 開発者は、URL に過剰に許可された Shared Access Signature (SAS) トークンを含めました。 SAS トークンは、ユーザーが Azure ストレージ アカウント データへのアクセスを許可する共有可能なリンクを作成できるようにするために Azure で使用されるメカニズムです。

Wizの共同創設者兼最高技術責任者であるアミ・ルトワック氏は、「人工知能はテクノロジー企業に大きな可能性をもたらした。しかし、データサイエンティストやエンジニアが新しい人工知能ソリューションを本番環境に導入しようと競う中、彼らが扱う大量のデータには追加のセキュリティチェックや保護対策が必要となる。多くの開発チームが大量のデータを処理したり、同僚とデータを共有したり、公開オープンソースプロジェクトで協力したりする必要があるため、マイクロソフトのようなケースを監視し回避することはますます困難になっている」と述べた。

Wizは、6月22日に調査結果をMicrosoftと共有し、Microsoftは2日後の6月24日にSASトークンを取り消したと述べた。Microsoftは、8月16日に組織への潜在的な影響に関する調査を完了したと述べた。

「顧客データは漏洩しておらず、この問題の結果、他の内部サービスが危険にさらされることはなかった」とMicrosoft Security Responseは公開に先駆けて共有したブログ投稿で述べた。

Microsoftは、Wizの調査結果に基づいて、GitHubのSecrets Scanningサービスを拡張したと発表した。このサービスは、公開されているすべてのオープンソースコードへの変更を監視し、資格情報やその他の機密情報(過剰な権限の有効期限や許可が設定されている可能性のあるSASトークンを含む)が平文で漏洩することを防止するものである。