Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Epidemiologi

Bewertung der Effektivität von ChatGPT bei der Risikobewertung von Bias

Diese Studie untersucht, wie gut ChatGPT Risiken in randomisierten Studien einschätzen kann.

― 9 min Lesedauer


ChatGPT undChatGPT undHerausforderungen bei derRisikobewertungin Risikobewertungen von Trials.ChatGPT zeigt begrenzte Übereinstimmung
Inhaltsverzeichnis

Evidenzbasierte Medizin baut darauf, die besten verfügbaren Beweise zu nutzen, die oft aus systematischen Übersichten stammen. Diese Übersichten sammeln und bewerten Daten aus vielen Studien, um Entscheidungen im Gesundheitswesen zu leiten. Allerdings kann die Erstellung dieser systematischen Übersichten viel Zeit und Ressourcen in Anspruch nehmen, manchmal über ein Jahr, und die Informationen können schnell veraltet sein.

Ein grosser Teil systematischer Übersichten ist die Bewertung des Bias-Risikos in den einbezogenen Studien. Bias bezieht sich auf Tendenzen in Studien, die deren Ergebnisse irreführend machen könnten – entweder indem sie die Auswirkungen von Behandlungen überschätzen oder unterschätzen. Diese Bias-Bewertung erfordert spezialisiertes Wissen und kann zeit- und arbeitsintensiv sein. Um Fehler zu minimieren, empfehlen die Richtlinien für Systematische Übersichten oft, dass diese Bewertung unabhängig von zwei Gutachtern durchgeführt wird, was die Komplexität erhöht.

Es gibt verschiedene Werkzeuge zur Bewertung des Bias-Risikos in randomisierten Studien. Das bekannteste ist das Cochrane-Bias-Risiko-Tool, das kürzlich auf das RoB 2.0-Tool aktualisiert wurde. Dieses neue Tool gilt als der Goldstandard für Risikoabschätzungen in randomisierten Studien. Es bewertet das Bias-Risiko in fünf Bereichen: Randomisierung, Abweichungen von der beabsichtigten Intervention, fehlende Ergebnisdaten, Messung der Ergebnisse und selektive Berichterstattung. Gutachter müssen die Studienberichte und alle verfügbaren Protokolle verwenden, um ihre Bewertungen für jeden Bereich vorzunehmen.

Obwohl das RoB 2.0-Tool Jahre an Erfahrung widerspiegelt, haben Gutachter festgestellt, dass es komplizierter ist als frühere Werkzeuge. Daher gibt es einen Bedarf an neuen Wegen, um die Bewertungen zu vereinfachen, ohne die Strenge zu verlieren.

Die Rolle automatisierter Werkzeuge

RobotReviewer ist ein automatisiertes Tool, das dabei helfen soll, Daten zu sammeln und das Risiko von Bias in randomisierten Studien zu bewerten. Frühere Bewertungen zeigten, dass es im Allgemeinen in etwa 70% bis 90% der Fälle mit systematischen Gutachtern übereinstimmt. Allerdings wurde RobotReviewer mit dem ursprünglichen Cochrane-Bias-Risiko-Tool entwickelt und deckt nur einen Teil des neuen RoB 2.0-Tools ab.

Im Gegensatz dazu ist ChatGPT eine konversationelle KI, die von OpenAI entwickelt wurde. Anders als spezialisierte Tools für Risikoabschätzungen ist ChatGPT ein generalistisches Sprachmodell, das dazu gedacht ist, bei sprachbasierten Aufgaben zu helfen. Es wurde auf einer breiten Palette von Internetinformationen trainiert, anstatt sich ausschliesslich auf systematische Übersichten oder Risikobewertungen zu konzentrieren.

Diese Studie soll bewerten, wie gut ChatGPT in der Lage ist, Risikoabschätzungen gemäss dem RoB 2.0-Tool durchzuführen. Wir haben systematische Übersichten ausgewählt, die dieses Tool verwendet haben, und ChatGPT eingesetzt, um die Bias-Risiken in den Studien innerhalb dieser Übersichten zu bewerten. Das Ziel ist zu überprüfen, ob ChatGPTs Bewertungen mit denen der Expertengutachter in den systematischen Übersichten übereinstimmen.

Methodologie

Suchstrategie und Screening

Für diese Studie wollten wir eine repräsentative Stichprobe von Cochrane-systematischen Übersichten erhalten. Anstatt durch viele medizinische Forschungsdatenbanken zu suchen, nutzten wir die Cochrane-Datenbank, die veröffentlichte Übersichten chronologisch auflistet. Die Gutachter arbeiteten unabhängig, um diese Übersichten auf Eignung zu überprüfen, beginnend mit den neuesten. Wir konzentrierten uns auf neuere Übersichten, da diese wahrscheinlich die neueste Version des RoB 2.0-Tools verwenden. Insgesamt wollten wir etwa 160 Studien einbeziehen.

Eignungskriterien

Wir wählten Randomisierte Studien aus, die verschiedene gesundheitsbezogene Fragen beantworten. Wir schlossen neue oder aktualisierte Übersichten ein, die sowohl die Vorteile als auch die Risiken von Gesundheitsinterventionen betrachteten, insbesondere solche, die parallele randomisierte Studien einbezogen und Risikoabschätzungen auf Basis des RoB 2.0-Tools bereitstellten.

Wir schlossen Übersichten aus, die nicht von Cochrane veröffentlicht wurden, da sie möglicherweise nicht denselben strengen Standards folgen. Wir liessen auch Übersichten aussen vor, die sich mit Prognosen, diagnostischen Tests oder nur mit Beobachtungsstudien befassten, da diese andere Risikobewertungsinstrumente erfordern.

Cochrane-Übersichten bieten normalerweise eine Zusammenfassung der Ergebnisse, die die Ergebnisse in der Reihenfolge ihrer Wichtigkeit beschreiben. Aus jeder geeigneten Übersicht wählten wir die ersten beiden Ergebnisse aus, die Studien erwähnten. Wenn dies kontinuierliche Ergebnisse waren, wählten wir ein drittes Ergebnis aus. Jedes dieser Ergebnisse wurde nur auf der Grundlage der einbezogenen parallelen randomisierten Studien bewertet, die in Englisch veröffentlicht wurden.

ChatGPT-Prompts

Ein wesentlicher Teil der Nutzung von ChatGPT ist, wie wir die Fragen gestalten, die wir ihm stellen, auch bekannt als Prompts. Wir haben drei verschiedene Prompts erstellt, um zu sehen, wie sie ChatGPTs Risiko-Bewertungen beeinflussen könnten. Diese reichten von einfachen Anweisungen bis hin zu detaillierteren Prompts, die darauf abzielten, die bestmöglichen Bewertungen zu erhalten.

Jeder Prompt forderte ChatGPT auf, Bewertungen über die Bias-Risiken in allen fünf Bereichen vorzunehmen, die von RoB 2.0 definiert wurden. Alle Prompts enthielten das vollständige RoB 2.0-Leitdokument und gaben die notwendigen Details aus Studienveröffentlichungen und -berichten an.

Die Prompts enthielten keine Informationen über die etablierten Bias-Risiko-Bewertungen, die von Cochrane-systematischen Gutachtern vorgenommen wurden, sodass ChatGPT seine Bewertungen ohne die Vorurteile der vorherigen Arbeit der Gutachter vornahm.

Datensammlung

Laut den RoB 2.0-Richtlinien sollten Gutachter Risiko-Bewertungen für jedes spezielle Ergebnis vornehmen, anstatt für jede Studie allgemein, da die Risiken je nach Ergebnis variieren können. Wir folgten diesem Ansatz und sammelten Daten, um ChatGPTs Bewertungen mit denen aus Cochrane-Übersichten zu vergleichen.

Nachdem wir die Risiko-Bewertungen aus den Übersichten gesammelt hatten, verwendeten wir ChatGPT, um die gleichen Studien unter Verwendung der verschiedenen Prompts zu bewerten. Wir duplizierten diese Datensammlung nicht, da sie nicht auf subjektiven Bewertungen beruhte, was das Potenzial für Fehler minimierte.

Wir berücksichtigten auch, wie die Objektivität der Ergebnisse ChatGPTs Zuverlässigkeit beeinflussen könnte. Wir kategorisierten die Ergebnisse aufgrund ihrer objektiven Messbarkeit und etikettierten sie als objektiv, wahrscheinlich objektiv, wahrscheinlich subjektiv und definitiv subjektiv.

Datenanalyse

Um die Anzahl der benötigten Studien für eine zuverlässige Bewertung zu schätzen, verwendeten wir statistische Software. Wir strebten genügend Daten an, um zu zeigen, dass die Gutachter zuversichtlich ChatGPT für Risikoabschätzungen nutzen könnten. Wir erwarteten, etwa 160 Studien zu benötigen, basierend auf verschiedenen statistischen Szenarien.

Wir berechneten das Übereinstimmungsniveau zwischen den Bewertungen, die von ChatGPT und denen in Cochrane-systematischen Übersichten vorgenommen wurden, unter Verwendung eines Metriks namens gewichtetem Kappa. Diese Statistik hilft, zwischen zufälliger Übereinstimmung und tatsächlicher Übereinstimmung zu unterscheiden, indem sie die Anzahl der Bereiche angibt, in denen die Gutachter übereinstimmten.

Die Analyse umfasste die Untersuchung jedes Risikobereichs separat, wobei der Schwerpunkt auf den wichtigsten Ergebnissen lag. Wir schauten uns auch Unterschiede zwischen Subgruppen basierend auf verschiedenen Studienmerkmalen an.

Zusätzlich überprüften wir die Begründungen, die ChatGPT gab, um zu verstehen, warum es unterschiedliche Bewertungen als die systematischen Gutachter abgab.

Systematische Übersichten und Studienmerkmale

Die Studie beinhaltete 157 Studien aus 34 systematischen Übersichten. Die Übersichten konzentrierten sich hauptsächlich auf pharmakologische Interventionen und wurden 2023 veröffentlicht. Die untersuchten Bedingungen umfassten Infektionskrankheiten, Augenerkrankungen und Atemwegserkrankungen.

In Bezug auf das Risiko von Bias bewerteten Cochrane-systematische Gutachter 28,7% der Studien als niedriges Risiko, 47,8% als mit einigen Bedenken und 24,6% als hohes Risiko. Verschiedene Risikobereiche wurden ebenfalls bewertet, wobei die selektive Berichterstattung die grösste Besorgnis zeigte.

Übereinstimmung zwischen ChatGPT und systematischen Gutachtern

Bei der Analyse des Grades der Übereinstimmung zwischen ChatGPTs Risiko-Bewertungen und denen, die in systematischen Übersichten vorgenommen wurden, stellten wir fest, dass die Übereinstimmung im Allgemeinen niedrig war. Die Gesamtübereinstimmungswerte lagen zwischen 0,11 und 0,29, was nur eine geringe bis faire Übereinstimmung in den Bewertungen anzeigt.

Darüber hinaus stellten wir fest, dass die beste Übereinstimmung im Bereich der fehlenden Ergebnisdaten zu beobachten war, während Abweichungen von der beabsichtigten Intervention die niedrigste Übereinstimmung aufwiesen.

Wir untersuchten zudem, ob die Zuverlässigkeit von ChatGPT je nach Art der Interventionen, Ergebnisse oder Studien variierte. Allerdings wurden in diesen Bereichen keine signifikanten Unterschiede festgestellt.

Hauptbefunde

Unsere Studie zielte darauf ab, zu bewerten, wie gut ChatGPT das Risiko von Bias bei randomisierten Studien mithilfe des RoB 2.0-Tools einschätzen konnte. Wir fanden heraus, dass nur eine geringe bis faire Übereinstimmung zwischen ChatGPTs Bewertungen und denen der systematischen Gutachter bestand. Das deutet darauf hin, dass ChatGPT derzeit nicht geeignet ist, diese Risikoabschätzungen durchzuführen.

Wir erkannten auch, dass die Gründe für die Diskrepanzen auf ChatGPTs begrenzte Fähigkeit zurückzuführen sein könnten, die detaillierten Anleitungen des RoB 2.0-Tools zu verarbeiten. Eine Verbesserung seiner Verarbeitungsfähigkeiten oder eine Anpassung seines Trainings könnte die Leistung in Zukunft verbessern.

Ausserdem, während unsere Ergebnisse enttäuschend erscheinen, ist es wichtig zu beachten, dass selbst Expertenbewertungen oft nur eine geringe bis faire Übereinstimmung zeigen, wenn das RoB 2.0-Tool verwendet wird. Das deutet darauf hin, dass ChatGPTs Ergebnisse mit den Herausforderungen übereinstimmen, mit denen menschliche Gutachter bei Risikoabschätzungen konfrontiert sind.

Stärken und Limitationen

Ein wichtiger Vorteil dieser Studie ist die Einbeziehung einer Vielzahl von systematischen Übersichten und Forschungsfragen. Risiko-Bewertungen können subjektiv sein, und zu verstehen, wie unterschiedliche Teams daran herangehen, kann wertvoll sein.

Allerdings hatte die Studie auch Einschränkungen, hauptsächlich da sie auf englischsprachige parallele randomisierte Studien beschränkt war. Darüber hinaus könnten einige Vorurteile in den Risiko-Bewertungen aus Diskrepanzen in der Durchführung dieser Bewertungen durch Menschen entstanden sein.

Zukünftige Richtungen

Die Leistung von ChatGPT entwickelt sich ständig weiter, und die Fähigkeiten von KI-Werkzeugen werden wahrscheinlich mit der Zeit besser. Wenn sich diese Modelle verfeinern, wird es wichtig sein, ihre Zuverlässigkeit weiter zu untersuchen. Interessierte Forscher könnten auch das Potenzial von massgeschneiderten GPTs untersuchen, die für spezifische Aufgaben optimiert werden können.

Darüber hinaus könnte die Erkundung granularer Prompts die Zuverlässigkeit der Bewertungen verbessern. Anstatt das Gesamtrisiko direkt zu bewerten, könnte ChatGPT durch die Hinweisfragen im RoB 2.0-Tool geleitet werden, um einen systematischen Ansatz für die Bewertung zu fördern.

Es gibt Möglichkeiten über die Risikoabschätzung hinaus, wo ChatGPT bei systematischen Übersichten assistieren kann, wie zum Beispiel bei der Erstellung von Suchstrategien und dem Screening von Aufzeichnungen.

Fazit

Diese Studie bewertete ChatGPTs Nützlichkeit bei der Bewertung des Bias-Risikos in randomisierten Studien. Die aktuellen Ergebnisse zeigen eine begrenzte Übereinstimmung mit etablierten Bewertungen systematischer Übersichten, was darauf hinweist, dass mehr Arbeit nötig ist, um seine Effektivität für diesen Zweck zu verbessern. Während sich das Feld der KI weiterentwickelt, bleibt das Potenzial für eine bessere Integration dieser Werkzeuge in systematische Übersichten ein bedeutendes Interessens- und Chancenfeld.

Originalquelle

Titel: ChatGPT for assessing risk of bias of randomized trials using the RoB 2.0 tool: A methods study

Zusammenfassung: BackgroundInternationally accepted standards for systematic reviews necessitate assessment of the risk of bias of primary studies. Assessing risk of bias, however, can be time- and resource-intensive. AI-based solutions may increase efficiency and reduce burden. ObjectiveTo evaluate the reliability of ChatGPT for performing risk of bias assessments of randomized trials using the revised risk of bias tool for randomized trials (RoB 2.0). MethodsWe sampled recently published Cochrane systematic reviews of medical interventions (up to October 2023) that included randomized controlled trials and assessed risk of bias using the Cochrane-endorsed revised risk of bias tool for randomized trials (RoB 2.0). From each eligible review, we collected data on the risk of bias assessments for the first three reported outcomes. Using ChatGPT-4, we assessed the risk of bias for the same outcomes using three different prompts: a minimal prompt including limited instructions, a maximal prompt with extensive instructions, and an optimized prompt that was designed to yield the best risk of bias judgements. The agreement between ChatGPTs assessments and those of Cochrane systematic reviewers was quantified using weighted kappa statistics. ResultsWe included 34 systematic reviews with 157 unique trials. We found the agreement between ChatGPT and systematic review authors for assessment of overall risk of bias to be 0.16 (95% CI: 0.01 to 0.3) for the maximal ChatGPT prompt, 0.17 (95% CI: 0.02 to 0.32) for the optimized prompt, and 0.11 (95% CI: -0.04 to 0.27) for the minimal prompt. For the optimized prompt, agreement ranged between 0.11 (95% CI: -0.11 to 0.33) to 0.29 (95% CI: 0.14 to 0.44) across risk of bias domains, with the lowest agreement for the deviations from the intended intervention domain and the highest agreement for the missing outcome data domain. ConclusionOur results suggest that ChatGPT and systematic reviewers only have "slight" to "fair" agreement in risk of bias judgements for randomized trials. ChatGPT is currently unable to reliably assess risk of bias of randomized trials. We advise against using ChatGPT to perform risk of bias assessments. There may be opportunities to use ChatGPT to streamline other aspects of systematic reviews, such as screening of search records or collection of data.

Autoren: Tyler Pitre, T. Jassal, J. R. Talukdar, M. Shahab, M. Ling, D. Zeraatkar

Letzte Aktualisierung: 2024-01-29 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727

Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.11.19.23298727.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel