4 月 15 日、ブルームバーグは、医療アドバイスを提供する際、AI 主導のチャットボットが約半分の時間で問題のある質問に回答していることが新しい調査で示されたと報じました。この発見は、日常生活にますます統合されている新しいテクノロジーである AI の健康リスクを浮き彫りにしました。

米国、カナダ、英国の研究者らは、ChatGPT、Gemini、Meta AI、Grok、DeepSeek という 5 つの主要な AI プラットフォームを、各プラットフォームに 5 つの健康カテゴリの下で 10 の質問をして評価しました。医学雑誌「BMJ Open」に今週掲載された研究結果によると、これらのAIチャットボットからの全回答のうち約50%が「問題がある」とみなされ、20%近くが「非常に疑わしい」と分類された。

この研究では、これらのチャットボットは、質問の種類によってパフォーマンスが大きく異なることがわかりました。クローズドエンドの質問 (答えが確実である) やワクチンやがんに関連する質問では比較的パフォーマンスが良かったのですが、オープンエンドの質問や、幹細胞研究や栄養などの分野ではパフォーマンスが悪かったのです。


黄色は問題があることを意味し、オレンジ色は高さに問題があることを意味します

研究者らによると、回答は自信に満ちた確かな口調で与えられることが多かったものの、どのチャットボットもプロンプトに応じて完全かつ正確な参考文献リストを提供しなかったという。調査全体を通じて、チャットボットが質問への回答を拒否したのは 2 回だけで、どちらも Meta AI からのものでした。

この調査結果は、人々が医学的アドバイスを得るために生成型 AI プラットフォームを利用するケースが増えているものの、これらのプラットフォームは医学的アドバイスを提供する認可を受けておらず、診断を下すために必要な臨床的判断を欠いているという懸念の高まりを浮き彫りにしています。

AI チャットボットの爆発的な普及により、AI チャットボットは病気についてのアドバイスを求める人々にとって人気のツールとなっています。 OpenAI によると、毎週 2 億人以上の人々が健康とウェルネスに関する質問を求めて ChatGPT を利用しています。同プラットフォームは今年1月、一般ユーザーと臨床医向けに別々の健康ツールを立ち上げると発表した。同月、Anthropic は自社の Claude 製品で新しいヘルスケア サービスを開始すると発表しました。

BMJ Openに掲載されたこの研究の著者らは、チャットボットが公的教育や規制なしに導入された場合の重大なリスクは、誤った情報の拡散を増幅させる可能性があると述べた。

彼らは、この調査結果は「AIの行動上の重要な限界を浮き彫りにし、AIチャットボットが公衆向けの保健医療コミュニケーションにどのように導入されるかを再評価する必要性を示唆している」と述べた。彼らはまた、これらのシステムは「権威があるように聞こえるが、潜在的に欠陥のある応答」を生成する可能性があると指摘しています。