ハーバード大学の緊急トリアージ試験で、AI 診断が本物の医師よりも優れていることが証明

『ER』のジョージ・クルーニーから『ER』のノア・ワイリーに至るまで、医療ドラマでは救急医は長い間、命を救うヒーローとして描かれてきた。しかし、ハーバード大学の最新の研究では、プレッシャーのかかる緊急トリアージの状況において、人工知能システムが診断精度において人間の医師を上回っていることが示されています。研究者らはこの結果を「医療を再構築する」技術的転換点と表現している。

サイエンス誌に掲載され、ハーバード大学医学部のチームが主導したこの研究は、試験に合格したり人工的に作成された試験問題を解くだけでなく、AIの臨床推論能力の「真の進歩」を示すものであると独立専門家らは考えている。この研究では、大規模な実験計画を使用して数百人の医師を大規模言語モデル (LLM) と比較し、緊急トリアージや長期治療計画などの主要なシナリオにおけるパフォーマンスの違いを評価することに焦点を当てました。

中心となる実験の 1 つで、研究チームはボストンの病院の緊急治療室を訪れた実際の患者 76 人を選択しました。 AI システムと 2 人の人間の医師のチームには、バイタルサインデータ、人口統計情報、訪問理由の数文の看護師の説明を含む、まったく同じ標準的な電子医療記録が与えられました。初期診断を行うためのこの限られた情報を考慮すると、AI はケースの 67% で正確または非常に近い診断を下しましたが、人間の医師は 50% ～ 55% の確率でしか正しませんでした。

研究によると、情報が非常に限られており、迅速な判断が必要なトリアージのシナリオでは、AI の利点が特に顕著であることが指摘されています。 AI と医師にさらに詳細な臨床情報が提供された場合、AI の診断精度 (OpenAI の o1 推論モデルを使用) はさらに 82% に向上しましたが、人間の専門家の精度は 70% ～ 79% の範囲でしたが、この差は統計的に有意ではありませんでした。

AI は緊急トリアージに加えて、長期治療計画の策定においても医師に優れたパフォーマンスを示しています。別の試験では、研究チームはAIに、抗生物質処方の設計から終末期医療プロセスなどの長期管理計画の立案まで、46人の医師による5件の臨床症例をレビューするよう依頼した。その結果、AIによって与えられた治療選択肢のスコアは89%と大幅に高かったのに対し、検索エンジンなど従来の情報源に頼った医師のスコアはわずか34%だった。

それにもかかわらず、研究者らは「救急医の解雇を発表する」時期には程遠いと強調した。この研究では、AIと人間の診断能力をテキスト化できる医療記録データのレベルでのみ比較しており、患者の痛みの表現、感情状態、ボディランゲージ、さらには家族とのやりとりなどの非テキスト情報など、実際の臨床状況で重要なシグナルの多くは含まれていない。つまり、今回の研究ではAIは論文情報をもとにセカンドオピニオンを行う「裏の医師」に近かったのです。

「私たちの研究結果は、AIが医師に取って代わることを意味するものではないと思います」と、この研究の筆頭著者の1人でハーバード大学医学部AI研究室所長のアルジュン・マンライ氏は語った。「これが意味するのは、医療システム全体を再構築する重大な技術的変化を私たちが目撃しているということだと思います。」ボストンのベス・イスラエル・ディーコネス・メディカル・センターの臨床医で、筆頭著者の一人であるアダム・ロッドマン氏は、大規模言語モデルを「ここ数十年で最も影響力のあるテクノロジーの1つ」と呼んだ。同氏は、今後10年でAIは医師に取って代わるのではなく、医師と患者による新たな「三者ケアモデル」、つまり「医師、患者、人工知能システム」を形成するだろうと予測した。

この研究では、肺血栓と症状の悪化を訴えて病院を訪れた患者の代表的な臨床例も紹介した。人間の医師たちは当初、抗凝固薬による治療が失敗し、病気の進行につながったと判断した。しかし、病歴を読んだ後、AIは重要な点に気づきました。それは、患者が肺の炎症も引き起こす可能性のある自己免疫疾患であるエリテマトーデスを患っていたということです。さらに詳しく調べたところ、AI の推論が正しいことが判明しました。

AI の臨床応用は実験室段階にとどまりません。すでに多くの医師が実際に使用しています。米国医師会が発表した最近の調査結果によると、米国の医師の5人に1人近くが診断手順にAI支援ツールを導入している。英国王立内科医協会の新しい調査によると、医師の 16% がこのようなテクノロジーを日常的に使用し、さらに 15% が週に 1 回以上使用しており、最も一般的な使用シナリオの 1 つが「臨床意思決定のサポート」であることが明らかになりました。

しかし、英国の医師らも調査を受ける際にAIに対する高い警戒感を表明し、特にAIの誤診リスクや責任問題への懸念を表明した。世界中の医療 AI スタートアップに何十億ドルも注ぎ込まれていますが、ひとたび AI が失敗した場合、責任をどのように定義し、その結果を誰が負うのかは依然として解決が必要な緊急の制度的ギャップです。ロッドマン氏は「現在、正式な説明責任の枠組みはない」と指摘し、患者は生死にかかわる決断や複雑な治療計画に直面したとき「最終的には人間の指導、付き添い、説明を受けたいと望んでいる」と強調した。

エディンバラ大学医療情報学センターの共同所長であるイーウェン・ハリソン教授は、この研究は「これらのシステムはもはや医療試験に合格したり、人工的に作られた試験問題に答えたりするだけのものではない」ことを示したので重要だと述べた。同氏の見解では、AIは臨床医にとって、特に潜在的な診断を包括的に分類し、病気の重要な原因を見落とすことを避ける必要があるシナリオにおいて、徐々に有用な「セカンドオピニオンツール」になりつつあるという。

同時に、英国シェフィールド大学の数学物理科学部の助教授、ウェイ・シン氏も、医師がAIと協力する場合、無意識のうちにAIの結論に依存し、独立した思考を弱める可能性があることを示す研究結果があることを思い出させた。「臨床現場でAIが日常的に使用されるようになるにつれ、この傾向はさらに高まる可能性が高い」と同氏は指摘した。また、Xing Wei氏は、この研究では、高齢の患者や英語を母国語としない患者の診断が難しいかどうかなど、どのタイプの患者でAIのパフォーマンスが悪くなるのかが完全には明らかにされていないことも強調した。これらは安全性を評価する上で無視できない問題です。

したがって、ハーバード大学の臨床試験の結果は心強いものではありますが、AI が臨床診断や治療に日常的かつ独立して使用できるほど安全であることを証明するものではなく、一般の人々が専門的な医療アドバイスの代わりに無料の AI ツールに頼るべきであるという意味でもありません。近い将来、AIは人間主導の医療システムに組み込まれる高性能の「インテリジェント聴診器」や「第2の脳」として利用される可能性が高く、より正確かつ効率的な診断と治療を促進すると同時に、責任、倫理、信頼に関する新たな問題を社会に提起することになるだろう。