研究によると、ChatGPT Health は医療緊急事態のほぼ半数で症状を過小報告し、診断を遅らせている

Nature Medicine に掲載された最近の研究では、医療シナリオ向けに OpenAI が立ち上げたチャットボットである ChatGPT Health は、症例を等級分け (トリアージ) する際に医療緊急事態の重症度を過小評価することが多いことが判明しました。研究チームは、実際の医療症例 60 件をシステムに入力し、そのトリアージ推奨事項とガイドラインと経験に基づく 3 人の臨床医の判断を比較しました。

その結果、医師が直ちに救急外来に行く必要があると判断した症例のうち、ChatGPT Healthでは51.6％が「24～48時間以内に医師の診察を受けられる」と判断しており、いわゆる「低グレード」であることが分かった。緊急事態として分類される状況には、糖尿病性ケトアシドーシス、差し迫った呼吸不全、および迅速に治療しなければ死に至るその他の重篤な病気が含まれます。研究論文の筆頭著者であり、ニューヨーク市のマウントサイナイ病院泌尿器科講師でもあるアシュウィン・ラマスワミー氏は、ある程度の訓練を受けた医師であれば、そのような患者は直ちに救急外来に運ばなければならないと考えるだろうが、チャットボットは旅行を勧める前に「疑いもなく深刻な状態になるのを待っている」ようだと指摘した。ただし、非常に典型的な症状を示す脳卒中などの緊急事態については、ChatGPT Health はこの研究で 100% 正確な分類を達成しました。

この研究では、さまざまな人口統計的特徴の下でシステムがどのように機能するかについても調査しました。各ケースは 16 のバリエーションに分けられ、患者の性別、人種、その他の情報が変更されましたが、設計上、バリエーションに関係なく結論は同じになるはずです。この研究では、性別や人種による結果に系統的な偏りがあるという証拠は見つかりませんでした。

この研究ではまた、ChatGPT Healthが非緊急のケースに関しては逆の問題を抱えていることも判明した。医師と比較して非緊急のケースの64.8％を「過剰に評価」したこと、たとえば喉の痛みが3日間続いただけの患者に在宅ケアで24～48時間以内の診察を求めるなどした。ラマスワミ氏は、さまざまなシナリオにおけるモデルの推奨事項の背後にある論理を理解するのに苦労し、そのリスク判断は臨床リスクの「一種の逆転、ほぼ逆」であると述べた。

ChatGPT Health のパフォーマンスは、自殺念慮や自傷行為のリスクを伴う状況でも同様に一貫性がありませんでした。 OpenAI のポリシーでは、ユーザーが自殺願望を表明した場合、チャットボットは国家自殺・危機ホットラインである 988 に電話するよう指示する必要があり、ChatGPT Health も同じメカニズムに従います。しかし、この研究では、システムは必要のないときに988に電話するよう提案することがありましたが、本当に必要なときにアドバイスを提供しませんでした。

研究の結論を受けて、OpenAIの広報担当者は、同社は医療分野における人工知能の応用に関する研究を歓迎しているが、この研究の設計はChatGPT Healthの典型的な使用法や予想される使用シナリオを表していないと考えていると述べた。 OpenAI によると、ChatGPT Health のインタラクションモデルは、ユーザーが単一の説明に基づいて 1 回限りの判断を下すのではなく、より多くの背景情報を提供するために質問を続けることを奨励します。現在、ChatGPT Health はまだ限られたユーザーのみに公開されています。 OpenAI はモデルのセキュリティと信頼性の向上を続けていますが、まだ完全には推進していません。公式情報ではまた、この製品は「診断や治療を目的としたものではない」が、ユーザーがより機密性の高い個人医療情報をアップロードできる、より安全なプラットフォーム上に構築されていることが強調されています。

今年 1 月に OpenAI が発表したレポートによると、世界中で 4,000 万人以上の人々が ChatGPT を使用して健康関連の質問に答えていることが明らかになりました。医療保険に関連した会話は毎週 200 万件近くあります。健康相談の大部分は医師の通常の診療時間外に行われており、毎週 50 万件を超えるメッセージが病院から車で 30 分以上離れた地域から寄せられます。研究者らは、AIツールは入手コストが低く、質問と回答の数に制限がなく、ユーザーは議論したいすべての文書や詳細をアップロードできるため、こうした人々にとって非常に魅力的であると指摘している。ラマスワミ氏の見解では、多くの人が単なるアドバイスだけでなく、「医療の伴侶」としてのインタラクティブな体験も求めているという。

しかし、研究に関与していない数人の専門家は、現在のチャットボットの医療能力を過大評価すべきではないと警告した。 UCLAヘルスシステムの内科医ジョン・マフィ氏は、生命の安全に影響を与えるAI医療製品は、大規模に宣伝する前に、厳格なランダム化対照試験を経て、メリットがリスクを上回ることを証明する必要があると述べた。専門家は一般に、チャットボットがさまざまなシナリオで有用な健康情報を提供できると考えていますが、医師の対面での判断に代わることは依然として困難です。

デューク大学生物統計・コンピューターサイエンス学科の助教授モニカ・アグラワル氏は、大規模言語モデルの訓練データや訓練方法に対する外の世界はいまだ透明性の高い理解が不足しており、既存の評価指標の多く（免許試験の高得点など）は真の医療能力を直接表していない、と指摘した。同氏はまた、大規模な言語モデルは「迎合」的であり、たとえその意見が不正確であってもユーザーの意見を反映する傾向があり、それが患者の既存の誤解や偏見を強化する可能性があると述べた。マフィ氏は、AIツールは「あなたを喜ばせるように設計されている」が、医師は患者が聞きたくないことを言わなければならないこともあると付け加えた。

医療アドバイスを提供するためにチャットボットに頼ることが安全かどうかという問題について、ラマスワミ氏の見解は、少なくとも現段階では答えはノーであり、特に緊急事態においてはAIに頼るべきではなく、最初に医師や救急サービスに連絡すべきだというものだ。シンガポールの AI 研究ネットワークである ARISE のエグゼクティブディレクターであるイーサンゴー氏は、多くの特定の状況において、AI は確かに安全で実現可能な提案を提供できるが、重要なのは、ユーザーがその限界を認識し、AI を医師の代わりとみなすべきではないと考えています。専門家らは、将来のより安全な方向性は、医療機関とテクノロジー企業の緊密な協力による継続的な規制とツールの改善により、医師と連携してAIを活用することであると強調している。

ラマスワミー氏は、モデルの機能が向上し続ければ、遠隔地や医療資源が乏しい世界規模の医療シナリオにおいて「患者、AI、医師」の三者協力関係を確立することで、患者に目に見える利益をもたらす可能性があると述べた。しかしその前に、本当に生命に影響を与える決定を下す前に、これらのシステムに対して十分に厳密な評価と制約をどのように行うかが、依然として医療業界とテクノロジー業界が直面している難しい問題です。