1 月 12 日のニュース: 新しい研究で、統合失調症患者の治療において医師を支援するために使用されるコンピューター アルゴリズムが、開発中にこれまで見られなかった新しいデータにうまく適応していないことが判明しました。そのため、この種の医療 AI は、手つかずの患者に対する治療の有効性を評価する場合、非常にパフォーマンスが悪くなります。

これらの医療ツールは人工知能を使用して大規模なデータセットの特徴を発見し、特定の治療に対する個人の反応を予測します。これは精密医療の中核です。医療専門家は、このツールを利用して各患者に合わせた治療を行うことを期待しています。 Science誌に掲載された論文の中で研究者らは、人工知能モデルがトレーニングサンプルに含まれる患者の治療結果を高い精度で予測できると指摘した。ただし、これまでに見たことのない患者データを扱う場合、モデルのパフォーマンスは大幅に低下し、ランダムな推測よりもわずかに優れているだけでした。

精密医療の有効性を確保するには、予測モデルがさまざまな条件下でも安定した精度を維持し、バイアスやランダムな結果の可能性を最小限に抑える必要があります。

「これは人々がまだ気づいていない大きな問題です」と、研究の共著者でコネチカット州ニューヘブンのイェール大学の精神科医アダム・チェクロード氏は言う。 「この研究は基本的に、アルゴリズムが依然として複数のサンプルでテストされる必要があることを示しています。」

アルゴリズムの精度

研究者らは、精神病の予測モデルで一般的に使用されるアルゴリズムを評価しました。彼らは、北米、アジア、ヨーロッパ、アフリカで統合失調症と診断された1,513人のボランティアを対象とした5つの抗精神病薬臨床試験のデータを使用した。この試験は2004年から2009年にかけて実施され、3種類の抗精神病薬のうち1種類を服用する前と服用後4週間のボランティアの症状を測定した。

研究チームは、このデータセットを使用して、4週間の抗精神病薬投与後に患者がどの程度改善するかを予測するアルゴリズムをトレーニングしました。まず研究者らは、アルゴリズムが開発された試験でアルゴリズムの精度をテストし、予測と試験で記録された実際の効果を比較したところ、精度が高いことが判明した。

次に、さまざまな方法を使用して、AI モデルが新しいデータをどの程度正確に分析したかを評価しました。研究者らは、ある臨床試験からのデータのサブセットでモデルをトレーニングし、それを同じ臨床試験からのデータの別のサブセットに適用しました。また、1 つまたは一連の試験からのすべてのデータでアルゴリズムをトレーニングし、他の臨床試験データでモデルのパフォーマンスをテストします。

これらのテストでは AI モデルのパフォーマンスが低く、トレーニングされていないデータセットに適用すると、モデルによって生成された予測がほぼランダムであるように見えることが判明しました。研究チームは異なる予測アルゴリズムを使用して実験を繰り返しましたが、同様の結果が得られました。

より良いテスト

この研究の著者らは、今回の結果は臨床予測モデルの信頼性を確保するために大規模なデータセットでどのように厳密にテストする必要があるかを浮き彫りにしていると述べた。精神医学的転帰に関する 308 の臨床予測モデルの系統的レビューでは、開発に使用されたサンプル以外のデータセットで検証されたモデルはわずか約 20% であることがわかりました。

「私たちはモデル開発を医薬品の開発と同じように考えるべきです」とチェクルード氏は言う。同氏は、多くの医薬品は初期の臨床試験では良好な成績を収めても、後の段階では問題に直面すると説明した。 「これらのアルゴリズムの開発とテストの方法については厳密である必要があり、一度実行しただけでそれが真実であると考えることはできません。」