Grosse Sprachmodelle bei der Alzheimer-Erkennung
Forschung zeigt, dass LLMs die Informationsgewinnung in der Alzheimer-Betreuung verbessern.
― 5 min Lesedauer
Inhaltsverzeichnis
Grosse Sprachmodelle (LLMs) sind Tools, die fortschrittliche Technologie nutzen, um Texte zu lesen und zu verstehen. Die können viele Dinge tun, wie Fragen beantworten und Ratschläge generieren. Im Gesundheitswesen werden diese Modelle verwendet, um bei klinischem Denken zu helfen, und sie haben sogar gezeigt, dass sie medizinische Prüfungen bestehen können. Es gibt grosses Interesse daran, LLMs zu nutzen, um wichtige Informationen aus klinischen Notizen zu extrahieren, insbesondere in Bezug auf Krankheiten wie Alzheimer.
Warum LLMs im Gesundheitswesen nutzen?
Im Gesundheitswesen ist es entscheidend, die richtigen Informationen für die Patientenversorgung zu sammeln. Ein spezieller Bereich, in dem LLMs helfen können, ist die Identifizierung von Gedächtnisproblemen, insbesondere Symptome, die mit Alzheimer und verwandten Erkrankungen verbunden sind. Diese Krankheiten werden oft spät diagnostiziert, insbesondere bei Minderheitengruppen, was es wichtig macht, sie frühzeitig zu erkennen. Wenn LLMs eingesetzt werden, um klinische Notizen zu analysieren, können sie helfen, die Ergebnisse von kognitiven Tests zu bestimmen, die entscheidend für die frühe Erkennung sind.
Fokus der Studie
Diese Studie hat sich mit zwei fortschrittlichen LLMs beschäftigt, speziell ChatGPT und LlaMA-2. Ziel war es, zu prüfen, wie gut diese Modelle Informationen über kognitive Tests, nämlich das Mini-Mental State Examination (MMSE) und die Clinical Dementia Rating (CDR), aus klinischen Notizen extrahieren können. Die Forscher wollten Details sammeln, einschliesslich der Ergebnisse dieser Tests und der Daten, an denen sie durchgeführt wurden.
Methodik
Für diese Studie wurden eine grosse Anzahl klinischer Notizen gesammelt, insgesamt über 135.000. Diese Notizen stammen aus verschiedenen Bereichen, wie Krankenhausbesuchen und Arztterminen, von Januar 2010 bis Mai 2023. Die Notizen wurden gefiltert, um sich nur auf die zu konzentrieren, die MMSE oder CDR erwähnten, was auf über 34.000 Notizen hinauslief.
Die Forscher wählten eine zufällige Stichprobe von 765 Notizen zur Analyse aus. Einige davon wurden Expertenprüfern zugewiesen, die die extrahierten Informationen mit dem abglichen, was in den Notizen stand, um die Genauigkeit sicherzustellen. Ziel war es, die Leistung von ChatGPT und LlaMA-2 beim korrekten Extrahieren der relevanten Daten zu vergleichen.
Nutzung der Modelle
Sowohl ChatGPT als auch LlaMA-2 wurden verwendet, um diese klinischen Notizen zu verarbeiten. Bevor die Modelle ausgeführt wurden, wurden die Notizen in ein einfacheres Textformat vorbereitet, um Verwirrung während der Verarbeitung zu vermeiden.
ChatGPT durchsuchte die ausgewählten Notizen, um alle Vorkommen der kognitiven Tests und deren jeweilige Daten zu finden. Nach dieser Analyse traten bei einer bestimmten Anzahl von Notizen Fehler bei der Verarbeitung auf, aber die Mehrheit wurde erfolgreich analysiert.
LlaMA-2 bearbeitete ebenfalls die Notizen, die ChatGPT erfolgreich verarbeitet hatte. Beide Modelle hatten das Ziel, die Testergebnisse und die Daten genau zu finden, was der Hauptfokus der Bewertung war.
Der Bewertungsprozess
Eine Gruppe von 22 ausgebildeten Mediziner:innen überprüfte die Ergebnisse von ChatGPT und LlaMA-2. Sie bewerteten die Genauigkeit und Vollständigkeit der von den Modellen bereitgestellten Antworten. Jeder Experte erhielt einen Stapel klinischer Notizen zur Bewertung, und einige Notizen wurden von mehr als einem Experten überprüft, um die Zuverlässigkeit sicherzustellen. Das Ziel war es zu verifizieren, wie gut jedes Modell bei der Bereitstellung korrekter und vollständiger Antworten abschnitt.
Die Experten verwendeten ein einfaches Ja/Nein-System, um zu beurteilen, ob die von den Modellen extrahierten Informationen korrekt waren. Der Fokus lag auf der Bewertung der Genauigkeit von MMSE- und CDR-Ergebnissen sowie deren Daten.
Ergebnisse der Studie
Die Studie stellte fest, dass ChatGPT insgesamt sehr gut bei der Extraktion der benötigten Informationen abschnitt. Bei MMSE lag die Genauigkeit bei etwa 83 %, während sie für CDR etwa 89 % betrug. Das Modell zeigte eine hohe Rate an wahren Negativen, was bedeutet, dass es meistens richtig war, wenn es sagte, dass es keinen Score gab.
Es gab jedoch einige Herausforderungen. Während ChatGPT gut darin war, MMSE-Ergebnisse zu finden, machte es manchmal Fehler bei der Identifizierung von CDR-Ergebnissen und vermischte diese gelegentlich mit anderen Tests. LlaMA-2 hingegen schnitt insgesamt nicht so gut ab und zeigte in allen Bereichen eine geringere Genauigkeit.
Experteneinigkeit
Die Prüfer:innen zeigten ein gutes Mass an Einigkeit bei ihren Bewertungen, was darauf hindeutet, dass die Ergebnisse zuverlässig waren. Sie fanden heraus, dass die Antworten von ChatGPT grösstenteils korrekt und vollständig waren, was die Idee unterstützt, dass LLMs wertvolle Tools in klinischen Umgebungen sein können.
Auswirkungen auf das Gesundheitswesen
Die Nutzung von LLMs zur Extraktion klinischer Informationen kann die Handhabung von Daten in Gesundheitseinrichtungen erheblich verbessern. Sie können den Prozess der Sammlung wichtiger Patientendaten optimieren, was bei der frühen Diagnose und Behandlung von Krankheiten wie Alzheimer helfen kann. Das kann zu besseren Behandlungsergebnissen und einer effizienteren Nutzung von Gesundheitsressourcen führen.
Abschliessende Gedanken
Die Forschung zeigt das Potenzial von LLMs, medizinische Fachkräfte zu unterstützen, indem sie wichtige Informationen aus klinischen Notizen extrahieren. ChatGPT und LlaMA-2 zeigten vielversprechende Ergebnisse, insbesondere ChatGPT bei der korrekten Auswertung von MMSE-Ergebnissen.
Die Studie deutet darauf hin, dass mit weiteren Verbesserungen, wie die Modelle angestossen werden, und in Kombination mit traditionellen Verarbeitungsmethoden, sie noch effektiver werden könnten. Das könnte erhebliche Auswirkungen auf das Gesundheitswesen haben und einen neuen Ansatz für das Management und die Nutzung klinischer Daten bieten.
Zukünftige Richtungen
Die Forscher planen, diese Studie als Benchmark zu nutzen, um andere Sprachmodelle in der Zukunft zu bewerten. Ausserdem wollen sie untersuchen, wie dieselben Techniken in verschiedenen Bereichen des Gesundheitswesens angewendet werden können, um herauszufinden, welche Anwendungen am effektivsten sind. Die Ergebnisse deuten darauf hin, dass eine Weiterentwicklung und Validierung von KI-Tools im Gesundheitswesen zu einer besseren Patientenversorgung und effizienteren Gesundheitssystemen führen könnte.
Titel: Evaluating Large Language Models in Extracting Cognitive Exam Dates and Scores
Zusammenfassung: ImportanceLarge language models (LLMs) are crucial for medical tasks. Ensuring their reliability is vital to avoid false results. Our study assesses two state-of-the-art LLMs (ChatGPT and LlaMA-2) for extracting clinical information, focusing on cognitive tests like MMSE and CDR. ObjectiveEvaluate ChatGPT and LlaMA-2 performance in extracting MMSE and CDR scores, including their associated dates. MethodsOur data consisted of 135,307 clinical notes (Jan 12th, 2010 to May 24th, 2023) mentioning MMSE, CDR, or MoCA. After applying inclusion criteria 34,465 notes remained, of which 765 underwent ChatGPT (GPT-4) and LlaMA-2, and 22 experts reviewed the responses. ChatGPT successfully extracted MMSE and CDR instances with dates from 742 notes. We used 20 notes for fine-tuning and training the reviewers. The remaining 722 were assigned to reviewers, with 309 each assigned to two reviewers simultaneously. Inter-rater-agreement (Fleiss Kappa), precision, recall, true/false negative rates, and accuracy were calculated. Our study follows TRIPOD reporting guidelines for model validation. ResultsFor MMSE information extraction, ChatGPT (vs. LlaMA-2) achieved accuracy of 83% (vs. 66.4%), sensitivity of 89.7% (vs. 69.9%), true-negative rates of 96% (vs 60.0%), and precision of 82.7% (vs 62.2%). For CDR the results were lower overall, with accuracy of 87.1% (vs. 74.5%), sensitivity of 84.3% (vs. 39.7%), true-negative rates of 99.8% (98.4%), and precision of 48.3% (vs. 16.1%). We qualitatively evaluated the MMSE errors of ChatGPT and LlaMA-2 on double-reviewed notes. LlaMA-2 errors included 27 cases of total hallucination, 19 cases of reporting other scores instead of MMSE, 25 missed scores, and 23 cases of reporting only the wrong date. In comparison, ChatGPTs errors included only 3 cases of total hallucination, 17 cases of wrong test reported instead of MMSE, and 19 cases of reporting a wrong date. ConclusionsIn this diagnostic/prognostic study of ChatGPT and LlaMA-2 for extracting cognitive exam dates and scores from clinical notes, ChatGPT exhibited high accuracy, with better performance compared to LlaMA-2. The use of LLMs could benefit dementia research and clinical care, by identifying eligible patients for treatments initialization or clinical trial enrollments. Rigorous evaluation of LLMs is crucial to understanding their capabilities and limitations.
Autoren: Narges Razavian, H. Zhang, N. Jethani, S. Jones, N. Genes, V. J. Major, I. S. Jaffe, A. B. Cardillo, N. Heilenbach, N. F. Ali, L. J. Bonanni, A. J. Clayburn, Z. Khera, E. C. Sadler, J. Prasad, J. Schlacter, K. Liu, B. Silva, S. Montgomery, E. J. Kim, J. Lester, T. M. Hill, A. Avoricani, E. Chervonski, J. Davydov, W. Small, E. Chakravartty, H. Grover, J. A. Dodson, A. A. Brody, Y. Aphinyanaphongs, A. V. Masurkar
Letzte Aktualisierung: 2024-02-13 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.07.10.23292373
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.07.10.23292373.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.