2020/3/25(水)、人工知能と臨床医と比較した系統解析「Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies」の結果をまとめました。医療画像の深層学習の診断パフォーマンスと専門の臨床医を比較するために、2010年から2019年まで、Embase、Cochrane Central Register of Controlled Trials、World Health Organization trial registryから、機械学習と臨床医を比較した論文を検索しました。機械学習における畳み込みニューラルネットワーク(convolutional neural networks: CNNs)は、生データからパターン認識、アルゴリズムは自分自身で学習し、画像の重要な特徴を認識、疾病が存在するかどうかの絶対リスクの予測、分類を行います。例えば、胸部レントゲン画像から気胸ありか気胸なしに分類するなどです。深層学習について10本の無作為化試験があり、2本がすでに発表されており、8本が現在進行中です。81本の非無作為化試験があり、9本が前向き研究、6本は実臨床の状況の研究でした。比較群の専門医の数の中央値は4名(2-9名)でした。データベースやコードへのアクセスは限定的で、データベース(95%)、コード(93%)へのアクセスが不可能でした。81本の研究のうち58本はバイアスリスクが高く、報告基準の遵守は不完全(50%未満 adherence for 12 of 29 TRIPOD items)でした。81本の研究のうち、61本の研究では、人工知能のパフォーマンスは臨床医と少なくとも同等(またはそれ以上)と報告していました。81本の研究のうち31本の研究では、さらなる試験が必要と報告していました。医療画像の深層学習において、前向き無作為化研究はほとんどありませんでした。非無作為化研究の多くは前向き研究ではなく、バイアスリスクが高く、報告基準を満たしていないものでした。多くの研究でデータ、コードのアベイラビリティは欠如しており、対照群となる臨床医の規模はしばしば小規模でした。さらなる研究によってバイアスリスクを減らし、リアルワールドおける臨床との関連性を高め、透明性を改善し、適切な結論が出るようにしていく必要があると論文ではまとめています。詳しくは論文をご覧ください。
→https://www.bmj.com/content/368/bmj.m689
試験デザインについて、なかなか辛口のレビューですが、医療画像の機械学習について初めての系統解析の論文です。81本の研究のうち61本の研究では人工知能のパフォーマンスは臨床医と少なくとも同等またはそれ以上という精度は悪くないんじゃないかと感じています。近いうちに、人間と精度が同等、精度が人間よりも良いなどという論文は当たり前のこととなり、それ以上の価値を求められるようになると予測しています。
2020/3/25(水)、人工知能と臨床医と比較した系統解析「Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies」の結果をまとめました。