Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Gesundheitsinformatik

Grosse Sprachmodelle in der medizinischen Diagnose: Eine Studie

Diese Studie untersucht die Rolle von LLMs wie GPT-4 in der medizinischen Diagnose.

― 6 min Lesedauer


KI in der medizinischenKI in der medizinischenDiagnoseauf Gesundheitsbewertungen.Untersuchung der Auswirkungen von LLMs
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) sind eine Art von künstlicher Intelligenz, die aus einer riesigen Menge an Text lernt. Man kann sie für verschiedene sprachbezogene Aufgaben nutzen, wie z.B. um mit Nutzern zu chatten oder um vorherzusagen, was als Nächstes in einem Satz kommt. LLMs können bei vielen Aufgaben gut abschneiden, ohne dass sie für jede einzelne spezifisch trainiert werden müssen. Das ist anders als bei früheren Machine-Learning-Modellen, die normalerweise nur für eine Aufgabe trainiert wurden. Diese frühen Modelle mussten oft komplett neu trainiert werden, wenn sie mit neuen Problemen konfrontiert wurden.

ChatGPT und seine Funktionen

ChatGPT ist ein spezieller Chatbot, der viele Aufgaben erledigen kann. Nutzer können ihm Beispiele geben, was sie wollen, was seine Antworten verbessern kann. ChatGPT verwendet ein Modell namens Generative Pretrained Transformer (GPT) als Backend. Im Gegensatz zu einigen früheren Modellen lernt GPT-4 aus menschlichem Feedback, um einer breiten Palette von Anweisungen zu folgen, die von Menschen verfasst wurden. Forschungen zeigen, dass LLMs gut darin sind, Fragen zu beantworten, die denen ähneln, die in medizinischen Prüfungen gestellt werden, und ChatGPT kann nützliche Antworten auf Gesundheitsfragen geben.

Bewertung von LLMs in der medizinischen Diagnose

Viele Studien haben untersucht, wie LLMs, einschliesslich GPT, Ärzten bei Diagnosen helfen können. Um zu sehen, wie gut diese Modelle abschneiden, verwenden Forscher oft medizinische Fallbeispiele. Hier wird dem Modell ein Prompt gegeben, der eine Zusammenfassung eines medizinischen Falls enthält, und es wird gebeten, mögliche Diagnosen vorzuschlagen. Die Ergebnisse zeigen, dass die Leistung beeindruckend ist, aber LLMs derzeit eher als Hilfsmittel für Ärzte angesehen werden, nicht als Ersatz für menschliches Urteil.

Neueste Studienergebnisse

Eine Studie untersuchte, wie gut GPT-4 bei der Diagnose komplexer medizinischer Fälle abschneidet. Die Forscher verwendeten 75 Fallakten aus einer führenden medizinischen Fachzeitschrift. Sie gaben GPT-4 Prompts basierend auf diesen Fällen und fanden heraus, dass es in etwa 64% der Fälle die richtige Diagnose identifizierte und in etwa 39% der Fälle an oberster Stelle stand.

Verschiedene Prompt-Techniken

Um besser zu verstehen, wie die Art der Informationen, die GPT-4 gegeben werden, seine Leistung beeinflusst, verglichen die Forscher verschiedene Methoden zur Erstellung von Prompts. Sie verwendeten Prompts, die reichhaltige Erzählungen enthielten, ähnlich denen in medizinischen Fallberichten, und verglichen sie mit einfacheren Prompts, die wichtige klinische Daten erfassten.

Arten von verwendeten Prompts

  1. Erzähl-Prompts (NARR): Diese Prompts bestanden aus dem Originaltext der medizinischen Fallberichte, einschliesslich der ursprünglichen klinischen Präsentation.

  2. Phänotypische Merkmale-Prompts (PHENO-R und PHENO-C): In diesen Prompts wurden klinische Merkmale mit spezifischer medizinischer Terminologie identifiziert. Die Prompts enthielten Informationen darüber, welche Symptome und Zeichen vorhanden waren und was ausgeschlossen wurde.

  3. Manuelle/HPO-Prompts (MAN-HPO): Dieser Ansatz beinhaltete das sorgfältige Hinzufügen von zusätzlichem Kontext wie medizinischer Vorgeschichte und familiären Details, um die Prompts informativer zu machen.

Wichtige Beobachtungen

In der Studie bewerteten die Forscher, wie gut GPT-4 die richtigen Diagnosen basierend auf verschiedenen Prompt-Strategien finden konnte. Bei Verwendung des narrativen Ansatzes lieferte GPT-4 genauere Diagnosen im Vergleich zu den merkmalsbasierten Prompts. Allerdings waren selbst die narrativen Prompts zeitaufwendig zu erstellen und in realen klinischen Umgebungen nicht praktikabel.

Ergebnisse aus verschiedenen Ansätzen

Als GPT-4 narrative Prompts erhielt, war die richtige Diagnose in fast 39% der Fälle enthalten. Im Gegensatz dazu war bei den merkmalsbasierten Prompts die richtige Diagnose nur in etwa 10% der Fälle enthalten, was einen signifikanten Leistungsabfall zeigt.

Auswirkungen im klinischen Umfeld

Die Ergebnisse deuten darauf hin, dass LLMs wie GPT-4 zwar wertvoll bei der Unterstützung von medizinischen Diagnosen sein können, aber die Art und Weise, wie Informationen ihnen präsentiert werden, wirklich wichtig ist. Narrativer Text scheint dem Modell zu helfen, die Situation im Vergleich zu strukturierten Daten allein besser zu verstehen. Allerdings stellt die Komplexität, eine Erzählung aus Standardmedizinischen Akten zu erstellen, eine Herausforderung dar.

Herausforderungen in der klinischen Praxis

Das Erstellen narrativer Prompts basierend auf typischen klinischen Notizen ist unpraktisch, da es viel Zeit in Anspruch nehmen würde und das Potenzial besteht, Datenschutzregeln zu verletzen. Die meisten medizinischen Aufzeichnungen enthalten sensible Informationen, was es schwierig macht, diese Daten mit externen Modellen zu teilen.

Zukunftsausblick: Ansätze mit strukturierten Daten

Eine Möglichkeit, LLMs effektiv in einem klinischen Umfeld zu nutzen, wäre, wichtige klinische Informationen in einem strukturierten Format zu sammeln, ohne sensible Details preiszugeben. Diese strukturierten Daten könnten dann verwendet werden, um Prompts für LLMs zu erstellen. Die Studie zeigte, dass die Verwendung strukturierter Daten zwar Herausforderungen mit sich bringt, aber ein praktikablerer Ansatz für die Anwendung in der realen Welt ist.

Zusammenfassung der Ergebnisse

Die Forscher fanden heraus, dass die Leistung von GPT-4 stark variierte, je nachdem, welche Art von Prompts verwendet wurde. Die narrativen Prompts lieferten bessere Ergebnisse, während die strukturierten Prompts besser mit dem übereinstimmten, was realistisch aus klinischen Daten generiert werden kann. Trotz einiger Verbesserungen bei manuell kuratierten Prompts waren die Gesamtergebnisse der strukturierten Ansätze dennoch nicht so stark wie die der narrativen Methoden.

Stärken und Begrenzungen der Studie

Die Studie hob einige Stärken hervor, einschliesslich Einblicken, wie LLMs Informationen basierend auf der textlichen Präsentation verarbeiten. Sie wies jedoch auch auf Einschränkungen hin, insbesondere die Unterschiede in den Antworten, die von unterschiedlichen Versionen von GPT-4 erzeugt werden. Diese Inkonsistenz wirft Fragen zur Zuverlässigkeit des Modells bei der Verwendung für klinische Diagnosen auf.

Nächste Schritte

Zukünftige Forschungen sollten bessere Wege zur Generierung von Prompts aus strukturierten Daten untersuchen. Es besteht ein Bedarf, zu bewerten, wie verschiedene Arten von Informationen die Leistung von LLMs in medizinischen Umgebungen beeinflussen könnten. Zudem könnte es wichtig sein, zu verstehen, wie die Variabilität in den Modellantworten bewertet werden kann, um praktische Anwendungen zu ermöglichen.

Fazit

Die Studie betont das Potenzial von grossen Sprachmodellen wie GPT-4 bei der Unterstützung medizinischer Diagnosen. Gleichzeitig wird jedoch deutlich, dass die Effektivität dieser Modelle von der Art der verwendeten Prompts abhängt. Während LLMs vielversprechende Unterstützung für Ärzte bieten, muss sorgfältig über die Informationen nachgedacht werden, die in diese Modelle eingespeist werden, um zuverlässige und nützliche Ergebnisse zu gewährleisten. Mit fortschreitender Forschung wird es entscheidend sein, die besten Wege zu finden, LLMs in die klinische Praxis zu integrieren, um ihre Nützlichkeit in realen Gesundheitsversorgungseinstellungen zu verbessern.

Originalquelle

Titel: On the limitations of large language models in clinical diagnosis

Zusammenfassung: ObjectiveLarge Language Models such as GPT-4 previously have been applied to differential diagnostic challenges based on published case reports. Published case reports have a sophisticated narrative style that is not readily available from typical electronic health records (EHR). Furthermore, even if such a narrative were available in EHRs, privacy requirements would preclude sending it outside the hospital firewall. We therefore tested a method for parsing clinical texts to extract ontology terms and programmatically generating prompts that by design are free of protected health information. Materials and MethodsWe investigated different methods to prepare prompts from 75 recently published case reports. We transformed the original narratives by extracting structured terms representing phenotypic abnormalities, comorbidities, treatments, and laboratory tests and creating prompts programmatically. ResultsPerformance of all of these approaches was modest, with the correct diagnosis ranked first in only 5.3-17.6% of cases. The performance of the prompts created from structured data was substantially worse than that of the original narrative texts, even if additional information was added following manual review of term extraction. Moreover, different versions of GPT-4 demonstrated substantially different performance on this task. DiscussionThe sensitivity of the performance to the form of the prompt and the instability of results over two GPT-4 versions represent important current limitations to the use of GPT-4 to support diagnosis in real-life clinical settings. ConclusionResearch is needed to identify the best methods for creating prompts from typically available clinical data to support differential diagnostics.

Autoren: Peter N Robinson, J. Reese, D. Danis, J. H. Caufield, E. Casiraghi, G. Valentini, C. J. Mungall

Letzte Aktualisierung: 2024-02-26 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2023.07.13.23292613

Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.07.13.23292613.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel