クラウド サービスの信頼性が再び警鐘を鳴らしています。現地時間 11 月 18 日、インターネット インフラストラクチャ大手 Cloudflare でサービスが中断され、世界中の多くの主要 Web サイトにアクセスできなくなりました。ウェブサイト障害追跡機関のダウンディテクター(ウェブサイト自体に一時は一部のユーザーがアクセスできなくなった)によると、アンスロピック社のクロード・チャットボット、トランプ氏のトゥルース・ソーシャル、マスク氏のソーシャルメディアプラットフォーム「X」がすべて影響を受け、米国のニュージャージー交通システムの一部のデジタルサービスも中断により麻痺した。

一方、OpenAIのステータスページは、その日遅くに、ChatGPTとそのSoraショートビデオアプリケーションが「サードパーティサービスプロバイダー」の問題による障害から完全に回復したことも示した。

Cloudflare は 2009 年にハーバード大学で設立され、2010 年に最初のベータ版を正式に開始しました。2019 年にニューヨーク証券取引所に上場され、現在フォーチュン 1000 企業の 30% にサービスを提供しています。その中核サービスには、標的の Web サイトに大量の誤ったリクエストを大量に送り込み、Web サイトを麻痺させる攻撃である DDoS (防御分散型サービス拒否) が含まれます。海外メディアの報道によると、同社のトラフィック管理およびセキュリティ保護サービスはインターネットトラフィックの約20%をカバーしているという。

この事件の影響を受け、クラウドフレアの株価は18日の米国株式市場終了時点で2.83%下落した。

Cloudflareの共同創設者兼最高経営責任者(CEO)のMatthew Prince氏は、これはCloudflareにとって2019年以来最も深刻な障害であると述べ、「今日の障害は容認できないものである…Cloudflareチーム全体を代表して、インターネットに引き起こしたトラブルについて謝罪したい」と語った。



影響を受ける Web サイトのエラー メッセージ

Cloudflareの最高技術責任者(CTO)デーン・クネヒト氏もソーシャルプラットフォームに投稿し、今回の障害について深く謝罪し、このインシデントは、ボット軽減機能を備えたサービスの潜在的な欠陥を発見するための同社のサポートが原因で、日常的な設定変更を行った後にクラッシュし始め、攻撃が原因ではなく、ネットワークや他のサービスの広範な機能低下を引き起こしたと述べた。

クネヒト氏は、今回のサービス停止とその影響、復旧時間は容認できないものだと述べた。 「私たちはこのようなことが二度と起こらないよう取り組んでいますが、現実的な影響があることを承知しています。お客様が私たちに与えてくださった信頼は私たちの最も貴重な資産であり、私たちはそれを取り戻すために必要なことは何でもします。」


Cloudflare CTO Dane Knecht 氏のツイートのスクリーンショット

現地時間11月19日の朝、Cloudflareは完全なレポートを発表し、5時間近く続いたインシデントを詳細に説明した。影響は現地時間18日午前11時28分に始まり、顧客のHTTPトラフィックで初めてエラーが観察された。 14:30 に主な影響は解決され、影響を受けた下流のサービスでエラーの減少が観察され始め、ほとんどのサービスが正しく実行され始めました。 17:06 にすべてのダウンストリーム サービスが再開され、すべての操作が完全に復旧し、影響は終了しました。

Cloudflareは、障害発生当時、同社は「見られた症状が非常に大規模なDDoS攻撃によって引き起こされたものであると誤って疑った」と述べ、その後、このファイルを生成した根本的なClickHouseクエリの動作が変更されたという核心の問題を正確に特定したと述べた。ファイルには、繰り返される「署名」行が多数含まれていたため、ボット管理モジュールがエラーをトリガーし、コア プロキシ システムがこのモジュールに依存するトラフィックに対して HTTP 5xx エラー コードを返しました。同時に、機能数の制限を超えるエラーファイルがサーバーに伝播されると、Cloudflare のシステムパニックが引き起こされました。さらに、これは、同社の顧客がコア エージェントに依存している Workers KV および Access サービスにも影響します。

その後、Cloudflareは、不正な署名ファイルの生成と伝播を停止し、既知の正常なファイルを手動で署名配布キューに挿入することで問題を解決し、コアエージェントを強制的に再起動したところ、5xxエラーコードの数が正常に戻りました。


Cloudflareの停止タイムライン

Cloudflareは「インターネットエコシステムにおけるCloudflareの重要性を考慮すると、当社のシステムへのいかなる混乱も容認できない」と述べ、顧客とインターネット全体への影響について謝罪した。

Cloudflareは、同社は、ユーザーが生成した入力と同じ方法でCloudflareが生成した構成ファイルの取り込み処理を強化するなど、将来同様の障害が発生しないようにシステムを強化する方法の検討を開始したと述べた。機能に対してよりグローバルな緊急停止スイッチを有効にする。コア ダンプやその他のエラー レポートがシステム リソースを使い果たす可能性を排除します。すべてのコア エージェント モジュールのエラー状態の障害モードを確認します。

海外メディアの報道によると、事故の1か月も経たないうちに、Amazon Cloud Serviceが1日にわたる停止に見舞われ、複数のネットワークサービスが麻痺したという。その後、Microsoft Azure Cloud Service と 365 Office Suite も世界的な停止に見舞われました。

サイバーセキュリティ企業クラウドストライクは、早くも2024年7月にソフトウェアアップデートの不備により大規模なシステム障害を引き起こし、航空機の運航停止、金融サービスの遮断、病院の手術遅延などの連鎖反応を引き起こした。