一般集団、医学的評価、大規模言語モデルの信頼性について調べた研究「Reliability of LLMs as medical assistants for the general public: a randomized preregistered study」の結果が発表されました。

2026/02/12

一般集団、医学的評価、大規模言語モデルの信頼性について調べた研究「Reliability of LLMs as medical assistants for the general public: a randomized preregistered study」の結果が発表されました。
https://pubmed.ncbi.nlm.nih.gov/41663592
ChatGPT等のAIツールは一般的になって来ましたが、一般集団における診断の精度、治療法の精度はそれぞれ34.5%、44.2%であったという報告です。まだまだ盲信するには頼りないレベルですね。
当院でもAIツールの結果の相談を受けることがしばしばありますが、前提条件である生活歴、既往歴、服薬歴等のデータを正しく入れていない例も多く（本人が関係ないと思っていても大いに関係ある場合もある）、それは正しい結果が出て来なくてもしょうがないよなあと思うことが多いです。使い手次第ですね。