Simple Science

最先端の科学をわかりやすく解説

# 健康科学# 疫学

ChatGPTのバイアスリスク評価の効果を評価する

この研究は、ChatGPTがランダム化試験のリスクを評価する能力を探ってるよ。

― 1 分で読む


ChatGPTとリスク評価ChatGPTとリスク評価の課題合意を示す。ChatGPTは試験リスク評価で限られた
目次

エビデンスに基づく医療は、最も利用可能な証拠を使うことに依存していて、しばしばそれはシステマティックレビューから来るんだ。これらのレビューは、多くの研究からデータを集めて評価して、医療の決定を導く手助けをするんだ。でも、これらのシステマティックレビューを作成するのはすごく時間とリソースがかかることがあって、時には1年以上かかることもあるし、情報がすぐに古くなっちゃうこともあるんだ。

システマティックレビューの大事な部分の一つは、含まれている研究のバイアスのリスクを評価することなんだ。バイアスっていうのは、研究において結果を誤って導く可能性のある傾向のことで、治療の効果を過大評価したり過小評価したりすることがあるんだ。このバイアスを評価するには専門知識が必要で、時間と労力もかなりかかるんだ。エラーを最小限にするために、システマティックレビューのガイドラインではこの評価を2人のレビューアーが独立して行うことを勧めていて、さらに複雑さが増してるんだ。

ランダム化試験のバイアスのリスクを評価するためのいくつかのツールがあるんだけど、最も認知されているのがコクランのバイアスリスクツールで、最近RoB 2.0ツールに更新されたんだ。この新しいツールは、ランダム化試験のリスク評価のゴールドスタンダードと考えられてるよ。これは、ランダム化、意図した介入からの逸脱、結果データの欠如、結果の測定、選択的報告の5つの領域にわたってバイアスのリスクを評価するんだ。レビューアーは各領域の判断をするために試験の報告書や利用可能なプロトコルを使わなきゃいけないんだ。

RoB 2.0ツールは長年の経験を反映しているけど、レビューアーたちはそれが以前のツールよりも複雑だと感じているんだ。だから、厳密さを失わずに評価を簡素化する新しい方法が必要とされているんだ。

自動化ツールの役割

RobotReviewerは自動化ツールで、ランダム化試験のデータを収集してバイアスのリスクを評価するのを手伝うために設計されているんだ。以前の評価では、一般的にシステマティックレビューアーと70%から90%一致していることが示されているんだけど、RobotReviewerは元々のコクランのバイアスリスクツールを使って作られたもので、新しいRoB 2.0ツールの一部しかカバーしていないんだ。

一方、ChatGPTはOpenAIによって開発された会話型AIだ。リスク評価のための専門ツールとは違って、ChatGPTは言語ベースのタスクを助けるために設計された汎用の言語モデルなんだ。システマティックレビューやリスク評価に特化せずに、幅広いインターネット情報を元にトレーニングされているんだ。

この研究は、ChatGPTがRoB 2.0ツールに沿ってバイアスのリスク評価をどれだけうまくできるかを評価しようとしているんだ。私たちはこのツールを使ったシステマティックレビューをサンプルして、ChatGPTを使ってそのレビュー内の試験に関連するバイアスのリスクを評価させたんだ。目標は、ChatGPTの評価がシステマティックレビューの専門家の評価と一致するかどうかをチェックすることなんだ。

方法論

検索戦略とスクリーニング

この研究のために、コクランのシステマティックレビューの代表的なサンプルを集めることを目指したんだ。多くの医療研究データベースを探す代わりに、公開されたレビューを年代順にカタログ化しているコクランデータベースを使ったんだ。レビューアーは、最も最近のレビューから始めて、それらのレビューの適格性を独立してスクリーニングしたんだ。新しいレビューに焦点を当てたのは、最新のRoB 2.0ツールを使っている可能性が高いからだ。合計で約160試験を含めることを目指したんだ。

適格基準

さまざまな健康関連の質問に答えるランダム化試験を選んだんだ。健康介入の利益と害を調査した新しいまたは更新されたレビューを含めて、特に並行ランダム化試験を含み、RoB 2.0ツールに基づくバイアスのリスク判断を提供しているものを選んだんだ。

コクランによって公開されていないレビューは、同じ厳密な基準に従わない可能性があるから除外したんだ。また、予後、診断テスト、または観察研究のみを含むレビューは、異なるリスク評価ツールが必要なため除外したんだ。

コクランレビューは通常、重要度の順に結果を説明する要約を提供するんだ。各適格レビューから、試験に言及している最初の2つの結果を選んだんだ。これが連続的な結果の場合は、3つ目の結果も選んだんだ。これらの結果は、英語で公開された並行ランダム化試験のみを基に評価されたんだ。

ChatGPTのプロンプト

ChatGPTを使う上で重要なのは、質問の設計の仕方、つまりプロンプトなんだ。ChatGPTのバイアスのリスク判断にどのように影響するかを見極めるために、3つの異なるプロンプトを作ったんだ。これらは、シンプルな指示から、できるだけ良い評価を得るための詳細なプロンプトまでさまざまなんだ。

各プロンプトは、ChatGPTにRoB 2.0で定義された5つの領域の全てにわたってバイアスのリスクについて判断をするように依頼したんだ。全てのプロンプトには、完全なRoB 2.0ガイダンスドキュメントが含まれていて、試験の出版物や報告から必要な詳細を提供したんだ。

プロンプトには、コクランのシステマティックレビューアーによって行われたバイアスのリスク判断に関する情報が含まれていなかったから、ChatGPTはレビューアーの以前の仕事からのバイアスなしにその評価を行ったんだ。

データ収集

RoB 2.0ガイダンスによると、レビューアーは試験ごとに一般的にではなく、各特定の結果についてバイアスのリスク判断を行うべきなんだ。リスクは結果によって異なるかもしれないからね。私たちはこのアプローチに従って、ChatGPTの判断をコクランレビューに提供されたものと比較するためのデータを収集したんだ。

レビューからバイアスのリスク判断を集めた後、ChatGPTを使って同じ試験を評価させて、異なるプロンプトを使用したんだ。このデータ収集を重複させなかったのは、主観的な判断に依存しなかったからで、エラーの可能性を最小限に抑えたんだ。

また、結果の客観性がChatGPTの信頼性にどう影響するかも考慮したんだ。結果を、客観的、恐らく客観的、恐らく主観的、そして明らかに主観的というように、測定の客観性に基づいて分類したんだ。

データ分析

信頼できる評価に必要な試験の数を見積もるために、私たちは統計ソフトウェアを使ったんだ。レビューアーがChatGPTをリスク評価に使うことに自信を持てることを示すために十分なデータを目指したんだ。様々な統計シナリオに基づいて、約160の試験が必要だと予想したんだ。

ChatGPTの評価とコクランのシステマティックレビューで説明された評価との一致レベルを、ウェイテッドカッパという指標を使って計算したんだ。この統計は、ランダムな一致と実際の一致を区別するのに役立って、レビューアーたちがどの領域で一致したかを示しているんだ。

分析には、最も重要な結果に焦点を当てつつ、各リスク領域を別々に調べることも含まれているんだ。また、ChatGPTがシステマティックレビューのレビューアーと異なる判断をした理由を理解するために、ChatGPTが提供する根拠も見直したんだ。

システマティックレビューと試験の特徴

この研究には、34のシステマティックレビューから157の試験が含まれていたんだ。レビューは主に薬理学的介入に焦点を当てていて、2023年に公開されたんだ。調査された条件には、感染症、眼疾患、呼吸器の問題が含まれていたんだ。

バイアスのリスクに関して、コクランのシステマティックレビューアーは、28.7%の試験を低リスクと評価し、47.8%をいくつかの懸念があるとし、24.6%を高リスクと判断したんだ。リスクの異なる領域も評価され、選択的報告が最も高い懸念を示したんだ。

ChatGPTとシステマティックレビューアーの一致

ChatGPTのバイアスのリスク判断とシステマティックレビューで行われたものとの一致度を分析したところ、一般的に一致度は低いことがわかったんだ。全体の一致スコアは0.11から0.29の範囲で、評価においてわずかまたは公平な一致しか見られなかったんだ。

さらに、特定のリスク領域を調べると、欠測結果データの領域での一致が最も良く、意図した介入からの逸脱の領域での一致が最も低かったんだ。

ChatGPTの信頼性が異なる介入タイプ、結果、または試験間で変動するかどうかも探ったけど、これらの領域での有意な違いは見られなかったんだ。

主な発見

私たちの研究は、ChatGPTがRoB 2.0ツールを使ってランダム化試験のバイアスのリスクをどれだけうまく評価できるかを評価することを目指していたんだ。ChatGPTの評価とシステマティックレビューアーの評価の間にはわずかから公平な一致しか見られなかった。このことは、現時点ではChatGPTがこれらのリスク評価を実施するのには適していないことを示唆しているんだ。

また、評価の不一致の理由は、ChatGPTがRoB 2.0ツールに関連する詳細なガイダンスを処理する能力が限られていることから来ているかもしれないと認識したんだ。将来的にそのパフォーマンスを向上させるためには、処理能力を改善するか、トレーニングを調整することが必要かもしれない。

さらに、私たちの発見は悲観的に見えるかもしれないけど、専門家レビューアーもRoB 2.0ツールを使う際にはしばしばわずかから公平な一致しか示さないことを考慮することが重要なんだ。これは、ChatGPTの結果が人間のレビューアーがリスク評価で直面する課題と一致していることを示唆しているんだ。

強みと限界

この研究の主な強みは、さまざまなシステマティックレビューと研究質問を幅広く含める能力があることなんだ。バイアスのリスク評価は主観的になりがちで、異なるチームがどのようにアプローチするかを理解することは価値があるんだ。

ただし、この研究には限界もあって、英語の並行ランダム化試験に制限されたことが主なものなんだ。また、人間がこれらの評価を行う際の不一致から、リスク判断にバイアスが生じる可能性もあるんだ。

将来の方向性

ChatGPTのパフォーマンスは常に進化していて、AIツールの能力も時間とともに改善される可能性が高いんだ。これらのモデルが洗練されるにつれて、さらにその信頼性を調査することが重要になるだろう。関心のある研究者は、特定のタスクに合わせたカスタムGPTの可能性を探ることも考えるかもしれない。

さらに、詳細なプロンプトを探ることで、判断の信頼性が向上する可能性があるんだ。全体的なリスクを直接評価するのではなく、RoB 2.0ツールに存在するシグナルの質問を通じてChatGPTを誘導し、評価に対する体系的なアプローチを促すことができるんだ。

リスク評価を超えた分野でも、ChatGPTがシステマティックレビューを支援できる機会があるんだ。たとえば、検索戦略の作成や記録のスクリーニングなどね。

結論

この研究は、ランダム化試験のバイアスのリスクを評価する上でのChatGPTの有用性を評価したんだ。現在の発見は、確立されたシステマティックレビューの判断との一致が限られていることを示していて、この目的に対するその効果を高めるためにさらに作業が必要だということを示唆しているんだ。AIの分野が進化を続ける中で、これらのツールをシステマティックレビューにより良く統合する可能性は、重要な興味と機会のある分野として残っているんだ。

オリジナルソース

タイトル: ChatGPT for assessing risk of bias of randomized trials using the RoB 2.0 tool: A methods study

概要: BackgroundInternationally accepted standards for systematic reviews necessitate assessment of the risk of bias of primary studies. Assessing risk of bias, however, can be time- and resource-intensive. AI-based solutions may increase efficiency and reduce burden. ObjectiveTo evaluate the reliability of ChatGPT for performing risk of bias assessments of randomized trials using the revised risk of bias tool for randomized trials (RoB 2.0). MethodsWe sampled recently published Cochrane systematic reviews of medical interventions (up to October 2023) that included randomized controlled trials and assessed risk of bias using the Cochrane-endorsed revised risk of bias tool for randomized trials (RoB 2.0). From each eligible review, we collected data on the risk of bias assessments for the first three reported outcomes. Using ChatGPT-4, we assessed the risk of bias for the same outcomes using three different prompts: a minimal prompt including limited instructions, a maximal prompt with extensive instructions, and an optimized prompt that was designed to yield the best risk of bias judgements. The agreement between ChatGPTs assessments and those of Cochrane systematic reviewers was quantified using weighted kappa statistics. ResultsWe included 34 systematic reviews with 157 unique trials. We found the agreement between ChatGPT and systematic review authors for assessment of overall risk of bias to be 0.16 (95% CI: 0.01 to 0.3) for the maximal ChatGPT prompt, 0.17 (95% CI: 0.02 to 0.32) for the optimized prompt, and 0.11 (95% CI: -0.04 to 0.27) for the minimal prompt. For the optimized prompt, agreement ranged between 0.11 (95% CI: -0.11 to 0.33) to 0.29 (95% CI: 0.14 to 0.44) across risk of bias domains, with the lowest agreement for the deviations from the intended intervention domain and the highest agreement for the missing outcome data domain. ConclusionOur results suggest that ChatGPT and systematic reviewers only have "slight" to "fair" agreement in risk of bias judgements for randomized trials. ChatGPT is currently unable to reliably assess risk of bias of randomized trials. We advise against using ChatGPT to perform risk of bias assessments. There may be opportunities to use ChatGPT to streamline other aspects of systematic reviews, such as screening of search records or collection of data.

著者: Tyler Pitre, T. Jassal, J. R. Talukdar, M. Shahab, M. Ling, D. Zeraatkar

最終更新: 2024-01-29 00:00:00

言語: English

ソースURL: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727

ソースPDF: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。

著者たちからもっと読む

類似の記事