ヘルスケアにおけるAutoML:使いやすさと課題
医療現場における自動化機械学習の影響を探る。
― 1 分で読む
目次
機械学習(ML)は、医療のいろんな分野で使われてるんだ。ヘルスケアの管理から医者が決断する手助けまで進化してきた。技術の進歩とヘルスケアデータの利用可能性がこのトレンドを生んだんだって。自動機械学習(AutoML)っていう特定の機械学習のタイプは、プログラミングが得意じゃない人でも人工知能(AI)を使って自分のモデルを作れるようにする。これによって、開発者は複雑なモデル調整に時間をかけるんじゃなくて、質の高いデータの収集にもっと集中できるね。
autoMLは、専門知識が必要な技術的なタスクを処理して、機械学習の使用を簡単にすることを目指してる。最初のステップはデータの準備で、データを結合、変換、クリーニングするんだ。その後、データの重要な特徴を選んで機械学習モデルを設計する準備をする。次に、モデルを選んで、トレーニングして、効果を評価する。autoMLはいろんな技術を使ってパフォーマンスを最適化して、たくさんのケースで強力なツールになってる。
autoMLには臨床環境での利用を助けるいくつかの利点があるよ。まず、研究でautoMLのパフォーマンスは伝統的な方法と同等だってわかってるから、実世界のアプリケーションや試験研究でも使える可能性があるってこと。次に、autoMLはモデル調整に人が関わることで生じるばらつきを減らすことで、ML研究をもっと再現可能にすることができる。さらに、技術的な要件が低いから、より多くのヘルスケア提供者がAI技術を利用できるようになる。最後に、autoMLはモデル開発の時間を節約できて、ヘルスケアにおけるAIアプリケーションの研究や探索を早く進められるんだ。
autoMLにはいろんなツールがあるけど、臨床環境で使う前にはこれらのツールを検証することが重要だよ。システマティックレビューが行われて、医学環境でのautoMLのパフォーマンスを評価したんだ。このレビューは、結果の報告の質を評価し、autoMLが実施された医療の専門分野やタスクを特定し、autoMLツールのパフォーマンスを伝統的なモデルやお互いと比較することを目的としてた。
データソースと検索
様々な医療データベースを調べて、2022年7月11日までのautoMLに関連する研究を探した。検索は、臨床状況でautoMLを使用した研究を特定することに焦点を当てた。重複レコードは適切なソフトウェアを使って削除。
研究選定
選定プロセスは、記事の要約と全文をレビューすることを含んでいた。2人の独立した研究者がスクリーニングを行い、意見の不一致が生じた場合は3人目の専門家が仲裁した。英語で、ピアレビューされた、ヘルスケアにおけるautoMLに焦点を当てた関連する記事だけを含める特定の基準が設けられた。
データ抽出と質の評価
基準を満たした記事について、2人の研究者がデータを抽出。既定のガイドラインに基づいて質の評価を行った。この評価では、研究の適用可能性に関する潜在的なバイアスや懸念を調査した。追加で収集したデータには引用の詳細、使用されたautoMLプラットフォームの特徴、臨床タスク、さまざまなパフォーマンス指標が含まれた。
含まれた研究の特徴
合計82の研究が分析に含まれた。autoMLは2018年頃から医学文献に登場し、毎年増加してきた。多くの研究が診断タスクに焦点を当てていて、呼吸器や神経医学の分野からの重要な代表があった。構造化データと非構造化データの両方が一般的に使用されていて、データセットのサイズは幅広い。
報告の質
研究の報告の質はさまざまだった。平均して、ほとんどの研究は多くの質の基準を満たしていたけど、特定の分野には大きなギャップがあった。多くの研究は倫理、患者の関与、研究結果の安全性などの重要な要因に触れなかった。
バイアスのリスクと懸念
レビューでは、研究の一般的なバイアスの源が特定され、主に回顧的デザインや公に利用可能なデータセットの使用から生じていた。多くの研究はautoMLのパフォーマンスを比較するための十分なベンチマークを提供しておらず、その結果の信頼性に懸念が生じている。
autoMLモデルのパフォーマンス
さまざまな研究で報告されたautoMLのパフォーマンスは、指標に幅広いバリエーションがあった。ほとんどの研究はAUCROC、F1スコア、AUCPRなどのパフォーマンス測定を提供していた。多くのケースで、autoMLモデルは伝統的な方法と比較して良い結果を出していて、いくつかの研究では統計的に有意なメリットを報告していた。
autoMLプラットフォームの比較パフォーマンス
異なるautoMLプラットフォームの総合比較では、機能とアクセスの面で大きく異なることがわかった。いくつかの研究では、似たタスクで異なるautoMLプラットフォームを直接比較していて、特定のシナリオで一つのプラットフォームが別のプラットフォームよりも優れていることを示したものもあった。
結論に対する信頼
期待される結果にもかかわらず、高いバイアスリスクが研究の結論に対する信頼性に影響を与えた。autoMLはどの研究においても伝統的な方法と比較して一貫して悪いパフォーマンスを示さなかったけれど、優れているという証拠はあまり確かではなかった。パフォーマンスは特定のアプリケーション、データセット、プラットフォームによって大きく変わることがある。
アプリケーションと今後の方向性
このレビューは、autoMLが脳や肺の健康に関連する幅広い臨床タスクで試されてきたことを示していて、結果はしばしば伝統的なモデルと比較可能なパフォーマンスを示している。だから実世界のアプリケーションの可能性があるってこと。ただ、証拠は一様じゃなくて、さらなる研究が必要だよ。
現在のautoMLの証拠ベースには注目すべきギャップがある。まず、パフォーマンス指標の報告の不一致が結果の解釈に関する懸念を引き起こしている。次に、モデル内での説明可能性にもっと焦点を当てる必要がある。第三に、これらのツールの使用に関する倫理的な影響、たとえばアルゴリズムの公平性には注意が必要だ。
不一致のあるベンチマーク作業は、autoMLの効果について誤解を招く結論を導く可能性がある。また、モデルの外部検証は、信頼性を確認するためにも必須だ。現在、多くの研究が検証用の別のデータセットを使用していないため、パフォーマンスの推定が膨らむ可能性がある。
このシステマティックレビューにはいくつかの制限があり、非診断アプリケーションの文脈での質とバイアスを評価するために既存のツールを適応させることが含まれていた。AI研究において高いバイアスリスクは依然として広く存在する懸念だ。
結論
autoMLに関する研究は、プログラミングスキルがあまりない臨床医や研究者にとって医療で貴重なアプリケーションがあることを示唆してる。さらなる検証と報告の改善があれば、autoMLは臨床環境で信頼できるツールになる可能性がある。今後の研究は、より良いベンチマーキング作業、倫理的な考慮の対応、実世界シナリオでのモデル検証に焦点を当て、患者ケアにおけるその利用をサポートするべきだね。その結果、autoMLはヘルスケアにおけるAI技術のアクセシビリティを大幅に向上させるかもしれない。
タイトル: Clinical performance of automated machine learning: a systematic review
概要: IntroductionAutomated machine learning (autoML) removes technical and technological barriers to building artificial intelligence models. We aimed to summarise the clinical applications of autoML, assess the capabilities of utilised platforms, evaluate the quality of the evidence trialling autoML, and gauge the performance of autoML platforms relative to conventionally developed models, as well as each other. MethodsThis review adhered to a PROSPERO-registered protocol (CRD42022344427). The Cochrane Library, Embase, MEDLINE, and Scopus were searched from inception to 11 July 2022. Two researchers screened abstracts and full texts, extracted data and conducted quality assessment. Disagreement was resolved through discussion and as-required arbitration by a third researcher. ResultsIn 82 studies, 26 distinct autoML platforms featured. Brain and lung disease were the most common fields of study of 22 specialties. AutoML exhibited variable performance: AUCROC 0.35-1.00, F1-score 0.16-0.99, AUCPR 0.51-1.00. AutoML exhibited the highest AUCROC in 75.6% trials; the highest F1-score in 42.3% trials; and the highest AUCPRC in 83.3% trials. In autoML platform comparisons, AutoPrognosis and Amazon Rekognition performed strongest with unstructured and structured data respectively. Quality of reporting was poor, with a median DECIDE-AI score of 14 of 27. ConclusionsA myriad of autoML platforms have been applied in a variety of clinical contexts. The performance of autoML compares well to bespoke computational and clinical benchmarks. Further work is required to improve the quality of validation studies. AutoML may facilitate a transition to data-centric development, and integration with large language models may enable AI to build itself to fulfil user-defined goals.
著者: Arun J Thirunavukarasu, K. Elangovan, L. Gutierrez, R. Hassan, Y. Li, T. F. Tan, H. Cheng, Z. L. Teo, G. Lim, D. S. W. Ting
最終更新: 2023-10-26 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.10.26.23297599
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.10.26.23297599.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。