Bewertung von KI in Entlassungsberichten für Krankenhauspatienten
Eine Studie vergleicht KI-generierte Entlassungsberichte mit denen von Ärzten verfassten.
Christopher Y.K. Williams, Charumathi Raghu Subramanian, Syed Salman Ali, Michael Apolinario, Elisabeth Askin, Peter Barish, Monica Cheng, W. James Deardorff, Nisha Donthi, Smitha Ganeshan, Owen Huang, Molly A. Kantor, Andrew R. Lai, Ashley Manchanda, Kendra A. Moore, Anoop N. Muniyappa, Geethu Nair, Prashant P. Patel, Lekshmi Santhosh, Susan Schneider, Shawn Torres, Michi Yukawa, Colin C. Hubbard, Benjamin I. Rosner
― 5 min Lesedauer
Inhaltsverzeichnis
Wenn Patienten das Krankenhaus verlassen, wird ein Dokument namens Entlassungsbericht erstellt. Dieser Bericht informiert die Ärzte über den Aufenthalt des Patienten, einschliesslich Diagnose, Behandlung und Nachsorge. Gute Entlassungsberichte können helfen, Fehler mit Medikamenten zu vermeiden, die Wahrscheinlichkeit von Rückfällen ins Krankenhaus zu verringern und die Hausärzte zufriedener mit den Informationen zu machen, die sie bekommen.
Allerdings kann das Schreiben dieser Berichte viel Zeit in Anspruch nehmen. Ärzte finden es oft schwierig, alle notwendigen Details zusammenzutragen, besonders wenn mehrere Ärzte an der Behandlung des Patienten beteiligt waren. Das kann zu Fehlern oder fehlenden Informationen führen, was die Qualität der Versorgung der Patienten nach dem Krankenhausaufenthalt beeinflussen kann.
Kürzlich wurde eine Art von künstlicher Intelligenz (KI) entwickelt, die large language models (LLMs) genannt wird. Diese Modelle können viele Informationen aufnehmen und Texte erstellen, die so aussehen, als wären sie von einem Menschen geschrieben. Es gibt die Hoffnung, dass LLMs beim Schreiben von Entlassungsberichten helfen können, um den Prozess für Ärzte zu erleichtern.
In diesem Artikel schauen wir uns an, wie gut die von LLMs generierten Entlassungsberichte im Vergleich zu denen sind, die von Ärzten verfasst wurden. Wir werden die Qualität und Sicherheit dieser Berichte untersuchen, um zu sehen, ob LLMs helfen können, die Zeit, die Ärzte mit Papierkram verbringen, zu reduzieren.
Studienübersicht
Wir haben Informationen aus einer grossen Menge von Krankenhausakten und klinischen Notizen gesammelt. Ziel war es, echte Fälle zu finden, in denen Patienten vom Krankenhausmedizin-Team behandelt wurden. Wir konzentrierten uns auf Patienten, die nur kurz im Krankenhaus waren, also 3 bis 6 Tage, da es einfacher war, ihre Akten zu überprüfen, ohne die Prüfer zu überlasten.
Dann nutzen wir ein fortschrittliches LLM, um Entlassungsberichte basierend auf den Notizen dieser Patientenbesuche zu erstellen. Eine Gruppe von Gesundheitsfachleuten, darunter Krankenhausärzte, Hausärzte und Ärzte von Pflegeeinrichtungen, überprüfte sowohl die von LLMs generierten als auch die von Ärzten verfassten Berichte.
Studiengruppe
Aus den Krankenhausakten identifizierten wir insgesamt 145.501 Begegnungen, aber nur 6.189 erfüllten unsere spezifischen Richtlinien, um in die Studie aufgenommen zu werden. Wir zogen eine zufällige Stichprobe von 100 Patientenbegegnungen zur Bewertung, und diese Fälle umfassten verschiedene Patientendemografien und klinische Details.
Überprüfung der Berichte
Um die von LLM generierten Entlassungsberichte und die der Ärzte zu bewerten, verwendeten wir einen zweistufigen Ansatz. Zuerst überprüfte eine Gruppe von Ärzten beide Arten von Berichten auf Fehler. Sie suchten nach inhaltlichen Fehlern, Auslassungen wichtiger Informationen und Ungenauigkeiten. Dann bewerteten sie die potenzielle Schädigung, die aus jedem Fehler resultieren könnte.
Zweitens bewertete dieselbe Gruppe von Prüfern die Berichte hinsichtlich ihrer Klarheit, ihres Flusses und ihrer Gesamtqualität. Wir fragten sie auch, welchen Bericht sie bevorzugten und ob sie die LLM-Berichte hilfreicher fanden als die von Ärzten verfassten.
Ergebnisse der Bewertung
Fehler und Schädigung
Bei den 100 Patientenbegegnungen hatten die von LLMs generierten Berichte im Durchschnitt 2,91 einzigartige Fehler, während die von Ärzten verfassten Berichte im Durchschnitt 1,82 Fehler hatten. Die LLM-Berichte wiesen mehr Ungenauigkeiten und Auslassungen auf als die von Ärzten. Allerdings hatten beide Arten von Berichten eine ähnliche Anzahl von "Halluzinations"-Fehlern, das sind Fehler, bei denen falsche Informationen enthalten sind.
Bei der Bewertung des potenziellen Schadens durch diese Fehler gab es keinen signifikanten Unterschied zwischen den Erzählungen der LLMs und der Ärzte. Beide hatten niedrige Schadenswerte, was bedeutet, dass die Fehler wahrscheinlich nicht zu ernsthaften Problemen für die Patienten führen würden.
Qualitätsbewertungen
Im Allgemeinen bewerteten die Prüfer die LLM-Berichte als prägnanter und kohärenter, aber weniger umfassend im Vergleich zu den von Ärzten verfassten Berichten. Sie fanden, dass die LLM-Berichte besser auf den Punkt kamen, aber oft wichtige Details fehlten. Alle Prüfer fanden die von LLMs generierten Berichte weniger gründlich, was mit der höheren Anzahl an Auslassungen in diesen Erzählungen korreliert.
Trotz der Unterschiede waren die Gesamtqualitätsbewertungen für beide Arten von Berichten ähnlich, und die Präferenzen der Prüfer favorisierten nicht signifikant die eine oder andere.
Weitere Faktoren in der Bewertung
Wir verwendeten auch verschiedene technische Metriken, um die Ähnlichkeiten zwischen LLM-generierten und von Ärzten verfassten Berichten zu vergleichen. Die Ergebnisse zeigten, dass es zwar ein gewisses Mass an Übereinstimmung zwischen den Berichten der gleichen Begegnungen gab, die Werte jedoch im Allgemeinen niedrig waren. Das deutet darauf hin, dass diese Metriken möglicherweise nicht effektiv messen, wie gut die Erzählungen die notwendigen klinischen Informationen vermitteln.
Fazit
Nach der Analyse der Daten fanden wir heraus, dass LLM-generierte Entlassungsberichte möglicherweise die Belastung durch klinische Dokumentation für Ärzte reduzieren könnten. Die von LLMs generierten Erzählungen waren klar und prägnant, machten jedoch mehr Fehler, insbesondere beim Auslassen wichtiger Informationen.
Dennoch wurden beide Arten von Berichten als vergleichbar in Bezug auf die Gesamtqualität und den potenziellen Schaden für die Patienten angesehen. Diese Studie ist ein wichtiger erster Schritt, um zu verstehen, wie LLMs in der realen klinischen Praxis eingesetzt werden könnten, insbesondere um Ärzten bei ihren Arbeitslasten zu helfen.
Zukünftig sind detailliertere Bewertungen erforderlich, um zu beurteilen, wie gut LLMs beim Verfassen von Entlassungsberichten unterstützen können und um Wege zur Verbesserung der Genauigkeit zu finden. Es scheint essenziell zu sein, dass ein Arzt die von LLMs generierten Berichte überprüft, um sicherzustellen, dass alle wichtigen Details erfasst werden und dass die Patientensicherheit nicht gefährdet wird. Insgesamt deuten unsere Ergebnisse darauf hin, dass LLMs die Ärzte dabei unterstützen können, effiziente und nützliche Entlassungsberichte zu erstellen, während dennoch menschliche Aufsicht erforderlich ist.
Titel: Physician- and Large Language Model-Generated Hospital Discharge Summaries: A Blinded, Comparative Quality and Safety Study
Zusammenfassung: ImportanceHigh quality discharge summaries are associated with improved patient outcomes but contribute to clinical documentation burden. Large language models (LLMs) provide an opportunity to support physicians by drafting discharge summary narratives. ObjectiveTo determine whether LLM-generated discharge summary narratives are of comparable quality and safety to those of physicians. DesignCross-sectional study. SettingUniversity of California, San Francisco. Participants100 randomly selected Inpatient Hospital Medicine encounters of 3-6 days duration between 2019-2022. ExposureBlinded evaluation of physician- and LLM-generated narratives was performed in duplicate by 22 attending physician reviewers. Main Outcomes and MeasuresNarratives were reviewed for overall quality, reviewer preference, comprehensiveness, concision, coherence, and three error types - inaccuracies, omissions, and hallucinations. Each error individually, and each narrative overall, were assigned potential harmfulness scores on a 0-7 adapted AHRQ scale. ResultsAcross 100 encounters, LLM- and physician-generated narratives were comparable in overall quality on a 1-5 Likert scale (average 3.67 [SD 0.49] vs 3.77 [SD 0.57], p=0.213) and reviewer preference ({chi}2 = 5.2, p=0.270). LLM-generated narratives were more concise (4.01 [SD 0.37] vs. 3.70 [SD 0.59]; p
Autoren: Christopher Y.K. Williams, Charumathi Raghu Subramanian, Syed Salman Ali, Michael Apolinario, Elisabeth Askin, Peter Barish, Monica Cheng, W. James Deardorff, Nisha Donthi, Smitha Ganeshan, Owen Huang, Molly A. Kantor, Andrew R. Lai, Ashley Manchanda, Kendra A. Moore, Anoop N. Muniyappa, Geethu Nair, Prashant P. Patel, Lekshmi Santhosh, Susan Schneider, Shawn Torres, Michi Yukawa, Colin C. Hubbard, Benjamin I. Rosner
Letzte Aktualisierung: 2024-09-30 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2024.09.29.24314562
Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.09.29.24314562.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.