CERN は、人類史上最も野心的な工学および科学事業の 1 つです。大型ハドロン衝突型加速器 (LHC) は、世界最大かつ最も高エネルギーの粒子加速器であり、科学者はそれを使用して亜原子世界の構造の証拠を分析します。その過程で、LHC は毎年数十ペタバイトのデータを生成できます。

CERN は最近、LHC の新しい実験段階 (LHC 運用 3) に備えてバックエンド IT システムをアップグレードする必要がありました。 2025 年末までに、このフェーズでは毎日 1PB のデータが生成されると予想されます。以前のデータベース システムは、CMS などのコライダーの主要な実験によって生成された「高カーディナリティ」データを処理するにはもはや適切ではありません。

コンパクト ミュオン ソレノイド (CMS) は、幅広い物理プログラムを備えた大型ハドロン衝突型加速器の汎用検出器です。これには、ヒッグス粒子を含む標準模型の研究や、暗黒物質を構成する可能性のある余分な次元や粒子の探索が含まれます。 CERNはこの実験を史上最大の科学共同研究の1つと呼び、54カ国の241機関から約5,500人が参加した。

CMS およびその他の大型ハドロン衝突型加速器の実験は、2018 年から 2022 年にかけて大規模なアップグレード段階を経て、現在、3 年間の運用フェーズ 3 データ収集期間中に亜原子粒子の衝突を再開する準備が整っています。シャットダウン中に、CERN の専門家は、CMS をサポートする検出器システムとコンピューティング インフラストラクチャの大幅なアップグレードも行いました。

CMS に取り組む科学者の Brij Kishor Jashal 氏は、彼のチームがインフラストラクチャのパフォーマンスを監視するために 30 日間で 30 TB のデータを収集したと述べました。同氏は、この段階の動作により輝度が高くなり、データ量が大幅に増加すると説明しました。以前のバックエンド監視システムは、圧縮アルゴリズムを利用してこのデータを効率的に処理する、オープンソースの時系列データベース (TSDB) InfluxDB と監視データベース Prometheus に依存していました。

ただし、InfluxDB と Prometheus では、特に高カーディナリティのデータを扱う場合に、パフォーマンス、スケーラビリティ、信頼性の問題が発生しました。高いカーディナリティとは、重複値の蔓延と、新しいインスタンスでアプリケーションを複数回再デプロイできる機能を指します。これらの課題に対処するために、CMS 監視チームは InfluxDB と Prometheus を VictoriaMetrics TSDB データベースに置き換えることを選択しました。

現在、VictoriaMetrics は CMS のバックエンド ストレージおよび監視システムの両方として機能し、以前に発生したカーディナリティの問題を効果的に解決します。 Jashal 氏は、CMS チームが現在クラスターとサービスのパフォーマンスに満足していると述べました。スケーラビリティの余地はまだありますが、これらのサービスは CMS の専用 Kubernetes クラスタ内で「高可用性モード」で実行され、より高い信頼性が保証されます。 CERN のデータ センターは、堅牢な x86 マシンのクラスター上で実行される OpenStack サービスに依存しています。

アクセス:

Alibaba Cloud - 最大 1888 元のユニバーサル バウチャーがすぐに利用可能