Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 医療情報学

バイオメディカルリサーチの評価:人間とAIのコラボレーション

人間のレビュアーとLLMを組み合わせることで、バイオメディカル研究の評価が良くなるよ。

― 1 分で読む


AIがバイオメディカルリサAIがバイオメディカルリサーチの評価に出会う究評価を実現するんだ。AIは人のレビューを強化して、より良い研
目次

バイオメディカルリサーチの報告やデザインがどれくらい良いかを評価するのは、医療の決断をするためにめっちゃ重要だよね。でも、この評価プロセスには時間とリソースがかなり必要なんだ。評価に使われるツールはテキストベースで、チェックリストとか臨床試験用の特定のツールみたいに、色々と指示が異なることがあるんだ。

エビデンス評価のためのツール

よく使われるツールとして、系統的レビューやメタアナリシスのための推奨報告項目(PRISMA)、系統的レビューを評価するための測定ツール(AMSTAR)、実用的説明連続指標のサマリー2(PRECIS-2)なんかがある。これらのツールは、研究者が研究の質を評価して、特定の基準を満たしているか確認するのに役立つんだ。

今までは、伝統的な機械学習や自然言語処理の方法が研究報告から重要な情報を引き出すために試みられてきたけど、最近は高度な深層学習技術がより大規模に報告を評価するために使われるようになっている。

大規模言語モデルの役割

最近、大規模言語モデル(LLMs)が言語を理解して処理する能力で注目されているよね。OpenAIのChatGPTみたいなモデルは、多くのタスクで良いパフォーマンスを発揮すると思われていて、いくつかの人工知能のベンチマークを超えているんだ。多くの人がLLMsが系統的レビューに役立つと考えているけど、限界についても議論がある。データのスクリーニングや抽出におけるLLMsの効果はかなりばらついているけど、役立つ場面もあるよ。

LLMのパフォーマンスを評価する

LLMsが人間の評価とどれぐらい比べられるかを理解するために、研究者は5つの異なるLLMを調べたんだ。彼らは、これらのモデルがPRISMAやAMSTARのような系統的レビュー用ツール、PRECIS-2のような臨床試験用ツールを使ったときに人間の評価にどれくらい合致するかを見たかったんだ。どのモデルが一番良かったのか、今のモデルがどれくらいの複雑さを扱えるのか、複数のLLMを組み合わせると精度が上がるのかを調べたんだ。それに、人間のレビューワーとLLMsを組み合わせる方が、複数の人間の評価者に頼るより効率的かどうかもチェックしたんだ。

データセットとツールの選び方

データセットを選ぶとき、研究者は二人の独立した人間のレビューがあるものが必要だった。系統的レビューでは、同じ研究を少なくとも二人が評価するのが標準だからね。PRISMAとAMSTARのツールには、小児外科の112の系統的レビューからの評価を使った。PRISMAツールは27項目、AMSTARは11項目で、評価は「はい」「いいえ」「該当せず」で行われる。PRECIS-2ツールには、56の無作為化対照試験からの評価が分析されたんだ。

研究でのLLMs

研究者は4つのプロプライエタリLLMと1つのオープンソースモデルを使ったんだ。それぞれのモデルには異なる能力、コスト、スピードがあるよ。テキストと画像の両方を処理できる唯一のモデルはClaude-3-Opusで、他の4つはテキストしか扱えない。研究者は、すべてのモデルを公平に比較できるように、一貫した方法でクエリを投げて、回答のランダム性を制限するようにしたんだ。

LLMのプロンプトエンジニアリング

LLMから有用な応答を得るために、研究者は明確な指示を含む具体的なプロンプトを作成したんだ。それぞれのモデルには、導入やブリーフィングの後に詳細な指示が与えられた。このアプローチは、LLMが理解しやすく応答するのに重要なんだ。

評価と引用の抽出

各LLMからの応答は保存され、研究者は評価を自動的に抽出する作業を行った。少しのフォーマットのミスは自動で修正されたけど、重大な問題にはモデルに何度も再プロンプトを投げる必要があった。研究者は特に、テキストから抽出した引用が正確であるかを確認するのに気を使ったんだ。

人間の評価との合意を分析する

主な焦点は、モデルが人間の評価とどれくらい一致しているかを測ることだった。彼らは、LLMの評価が人間のレビューワーのコンセンサスとどれくらい一致するかを見たんだ。それぞれの評価ツールに対していくつかの分析を行って、モデルがどれくらい上手く機能するか、プロセス中に何を使ったかを確認したんだ。

個々の人間評価者のパフォーマンス

人間評価者の正確さはかなり高くて、PRISMAとAMSTARでは89%から90%、PRECIS-2では約75%だった。個々のLLMと比較すると、モデルの正確さはかなり低かったんだ。例えば、PRISMAで一番良いモデルでも70%の正確さしかなくて、最悪のモデルは63%だった。AMSTARでも似たような結果で、PRECIS-2ではさらに低かった。

LLM評価の組み合わせ

すべてのLLMからの評価を組み合わせて、一貫性を求める方法を使ったら、研究者はより良い正確さを見つけたんだ。モデルが多くの合意を持っているときにうまく機能したよ。PRISMAとAMSTARでは、正確さが75%から88%に改善されたけど、それでも多くの評価は人間の評価者によって確認する必要があった。このアプローチにより、研究者は評価の不確実性を特定できたんだけど、これは結果の信頼性を理解するのに重要なんだ。

人間とAIのコラボレーション

研究者は、人間の評価とLLMの評価を組み合わせることで、人間の評価者だけを使うよりも良い結果が得られるかどうかも調べたんだ。いくつかのケースでは、このコラボレーションが正確さを大幅に改善したよ。PRISMAとAMSTARでは、人間の評価者とLLMの評価が一致すると、正確さが96%に達した。これは、結構な数の応答が二回目のレビューを避けることができる可能性があるってことだから、人間の評価者の時間を節約できるかもしれない。

PRECIS-2では、結果はあまり強くなくて、10の組み合わせの中で改善が見られたのは1つだけだった。つまり、LLMsは手助けできるけど、臨床試験のデザインみたいなより複雑な評価にはまだ信頼できるほどの能力はないってことだね。

課題と今後の方向性

LLMsを評価に使う進展はあったけど、いくつかの問題は残っている。モデルはより複雑なタスクではうまく機能せず、個々のモデルは能力にかなりのばらつきがあった。PRISMAでは、良いパフォーマンスを発揮したモデルが最も複雑だったけど、小規模なモデルは特定の分野で予想外の強さを示したんだ。

研究者は、今後の作業でモデルをさらに洗練させることで正確さを向上させたり、さまざまな試験タイプを含むよりバランスの取れたデータセットを使ったりすることで改善が可能だと提案している。また、コンセンサスプロセスを強化するために、もっと多くの人間のレビューワーが必要だとも言っているんだ。

さらに、モデルは画像を処理する能力が制限されていて、特定のバイオメディカルな文脈で関連があるかもしれないんだ。新しいバージョンのモデルがリリースされることで、研究者へのサポートがより良くなるかもしれない。

結論

全体的に見て、現在のLLMsはバイオメディカルリサーチの質を単独で評価するにはまだ完璧じゃないけど、人間の判断と組み合わせることで特定のタスクで貴重なパートナーになり得るんだ。このコラボレーションは、より効率的な評価をもたらし、医療分野のエビデンスや研究結果の質を向上させる可能性があるよ。

オリジナルソース

タイトル: Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools

概要: BackgroundIt is unknown whether large language models (LLMs) may facilitate time- and resource-intensive text-related processes in evidence appraisal. ObjectivesTo quantify the agreement of LLMs with human consensus in appraisal of scientific reporting (PRISMA) and methodological rigor (AMSTAR) of systematic reviews and design of clinical trials (PRECIS-2). To identify areas, where human-AI collaboration would outperform the traditional consensus process of human raters in efficiency. DesignFive LLMs (Claude-3-Opus, Claude-2, GPT-4, GPT-3.5, Mixtral-8x22B) assessed 112 systematic reviews applying the PRISMA and AMSTAR criteria, and 56 randomized controlled trials applying PRECIS-2. We quantified agreement between human consensus and (1) individual human raters; (2) individual LLMs; (3) combined LLMs approach; (4) human-AI collaboration. Ratings were marked as deferred (undecided) in case of inconsistency between combined LLMs or between the human rater and the LLM. ResultsIndividual human rater accuracy was 89% for PRISMA and AMSTAR, and 75% for PRECIS-2. Individual LLM accuracy was ranging from 63% (GPT-3.5) to 70% (Claude-3-Opus) for PRISMA, 53% (GPT-3.5) to 74% (Claude-3-Opus) for AMSTAR, and 38% (GPT-4) to 55% (GPT-3.5) for PRECIS-2. Combined LLM ratings led to accuracies of 75-88% for PRISMA (4-74% deferred), 74-89% for AMSTAR (6-84% deferred), and 64-79% for PRECIS-2 (18-88% deferred). Human-AI collaboration resulted in the best accuracies from 89-96% for PRISMA (25/35% deferred), 91-95% for AMSTAR (27/30% deferred), and 80-86% for PRECIS-2 (76/71% deferred). ConclusionsCurrent LLMs alone appraised evidence worse than humans. Human-AI collaboration may reduce workload for the second human rater for the assessment of reporting (PRISMA) and methodological rigor (AMSTAR) but not for complex tasks such as PRECIS-2.

著者: Tim Woelfle, J. Hirt, P. Janiaud, L. Kappos, J. Ioannidis, L. G. Hemkens

最終更新: 2024-04-22 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2024.04.21.24306137

ソースPDF: https://www.medrxiv.org/content/10.1101/2024.04.21.24306137.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事