Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Gesundheitsinformatik

Bewertung der Leistung von LLMs bei Gesundheitsaufgaben

Die Studie analysiert die Temperatureffekte auf LLMs bei klinischen Aufgaben mit Patientendaten.

― 7 min Lesedauer


LLM Genauigkeit beiLLM Genauigkeit beiGesundheitsaufgabenvon LLM auf die klinische Leistung.Studie untersucht die Temperatureffekte
Inhaltsverzeichnis

Kürzliche Änderungen bei grossen Sprachmodellen (LLMs) bieten neue Möglichkeiten zur Analyse von Daten, besonders im Gesundheitswesen. Diese Modelle können detaillierte medizinische Situationen prüfen und verstehen und zeigen Potenzial bei klinischen Entscheidungen.

Allerdings ist die Nutzung von LLMs nicht ganz einfach. Sie können komplex sein und erfordern ein detailliertes Verständnis dafür, wie sie in bestehende Gesundheitssysteme passen. Wie bei anderen Modellen im maschinellen Lernen haben LLMs Hyperparameter, die erheblich beeinflussen können, wie gut sie abschneiden. Während Forscher diese Parameter im Allgemeinen untersucht haben, ist weniger darüber bekannt, wie sie in spezifischen Bereichen wie dem Gesundheitswesen wirken.

Ein wichtiger Hyperparameter ist die Temperatur, die beeinflusst, wie zufällig oder kreativ die Antworten des Modells sind. Niedrigere Temperaturen führen zu standardisierten Antworten, während höhere Temperaturen zu variierteren und unerwarteten Antworten führen. Für kreative Aufgaben wie das Schreiben könnten höhere Temperaturen besser sein, aber es ist weniger klar, welche Temperatur für gesundheitsbezogene Aufgaben am besten ist. Verschiedene klinische Aufgaben benötigen möglicherweise unterschiedliche Temperatureinstellungen.

Einige Forschungen haben bereits begonnen zu untersuchen, wie die Temperatur LLMs in akademischen Kontexten beeinflusst, aber es gibt nicht viele Informationen über ihre Auswirkungen in klinischen Situationen. Diese Studie zielt darauf ab, diese Lücke zu schliessen, indem sie bewertet, wie gut LLMs bei verschiedenen klinischen Aufgaben mit tatsächlichen Patientendaten abschneiden, und dabei Aspekte von binärer Klassifizierung bis hin zu komplexeren Aufgaben wie medizinischer Kodierung abdeckt. Die Studie untersucht auch, wie Temperatureinstellungen die Denkfähigkeiten von LLMs beim Interpretieren klinischer Daten beeinflussen.

Studiendesign

Diese Forschung verwendet ein retrospektives Kohortendesign, um zu untersuchen, wie Temperatureinstellungen die Leistung von LLMs im Gesundheitswesen beeinflussen. Das Ziel ist es zu sehen, wie sich diese Einstellungen auf Aufgaben wie binäre Klassifizierung, Regression und medizinische Kodierung auswirken.

Die Studie sammelte Daten aus den elektronischen Gesundheitsakten des Mount Sinai Health Systems und konzentrierte sich auf Besuche in den Notaufnahmen (EDs) von fünf Mount Sinai-Krankenhäusern von Januar 2023 bis Dezember 2023.

Um die Privatsphäre der Patienten zu schützen, wurden alle Daten anonymisiert, um sicherzustellen, dass die Patientendaten während der gesamten Studie vertraulich blieben.

Kohortenerstellung

Die Kohorte dieser Studie umfasste Patienten über 18 Jahre, die zunächst in der ED behandelt und später ins Krankenhaus eingeliefert wurden. Der erste Arzt- und der erste Pflegeberichts für jeden Patienten wurden ausgewählt, solange die Notizen vollständig waren und genug Worte enthielten. Patienten, die keine Erwachsenen waren oder fehlende Notizen hatten, wurden ausgeschlossen.

Datensammlung

Die Daten für die Analyse beinhalteten sowohl strukturierte als auch unstrukturierte Informationen. Die strukturierten Daten umfassten Variablen wie Geschlecht, Rasse, Ethnie, Alter und Entlassungsstatus. Die unstrukturierten Daten beinhalteten klinische Notizen, die von Gesundheitsdienstleistern verfasst wurden.

Die Datensammlung folgte einem sorgfältigen Prozess, um sicherzustellen, dass relevante Datensätze einbezogen wurden. Zuerst wurde die Datenbank nach Patientendatensätzen innerhalb des angegebenen Jahres durchsucht. Ein Altersfilter wurde angewendet, um nur Erwachsene einzuschliessen. Anschliessend wurden Daten von Patienten ausgewählt, die nach ihrem ED-Besuch aufgenommen wurden. Nur relevante Notizen von Gesundheitsfachleuten wurden als Teil dieses gefilterten Datensatzes gesammelt.

Eine zufällige Stichprobe von ED-Besuchen wurde aus jedem Krankenhaus entnommen, mit dem Ziel, 250 Patientendatensätze pro Krankenhaus zu erhalten. Der endgültige Datensatz umfasste insgesamt 1.283 Datensätze aus verschiedenen Krankenhäusern.

Ergebnismasse

Die Studie konzentrierte sich auf drei Hauptaufgaben, die jeweils unterschiedliche Analysemethoden erforderten:

  1. Vorhersage der In-Hospital-Mortalität: Hier musste bestimmt werden, ob ein Patient im Krankenhaus gestorben ist oder nicht (ja/nein).
  2. Vorhersage der Aufenthaltsdauer: Dabei ging es darum zu schätzen, wie viele Tage ein Patient vom Eintreffen bis zur Entlassung im Krankenhaus bleiben würde.
  3. Genauigkeit der medizinischen Kodierung: Dies betraf die Überprüfung der Genauigkeit der ICD-10-CM-Diagnosecodes anhand klinischer Notizen und Diagnosedaten.

Modellparameter und Implementierung

Die Leistung der LLMs wurde unter Verwendung verschiedener Temperatureinstellungen (0,2, 0,4, 0,6, 0,8 und 1,0) bewertet, um zu sehen, wie sie die Zufälligkeit und Kreativität der Ausgaben beeinflussten. Weitere Parameter wurden in verschiedenen Tests konsistent gehalten.

Es wurden drei spezifische LLMs verwendet: OpenAI’s GPT-4, GPT-3.5 und Metas Llama-3-70b. Python war die Programmiersprache für alle Codes und Analysen. Die Modelle wurden auf einer privaten Cloud-Instanz ausgeführt, die den Gesundheitsvorschriften entsprach.

Innerhalb dieses Setups wurde ein Azure AI Studio-Dienst erstellt, um die Experimente durchzuführen.

Eingabedesigns

Die Modelle wurden angewiesen, als klinische Praktiker zu agieren und sowohl strukturierte als auch narrative Daten zu verwenden, um Vorhersagen über Mortalität, Aufenthaltsdauer und primäre Diagnosen zu treffen. Ein strukturiertes Format wurde für die Eingaben verwendet.

Statistische Analyse

Klassifikationsmetriken

Es wurden verschiedene Metriken verwendet, um die Leistung zu bewerten, darunter die Fläche unter der Kurve (AUC) für Vorhersagen und die Genauigkeit für die Endergebnisse. Weitere Massnahmen umfassten Sensitivität, Präzision und F1-Score.

Regressionsmetriken

Der mittlere quadratische Fehler (MSE) und der Wurzel aus dem mittleren quadratischen Fehler (RMSE) wurden verwendet, um die Genauigkeit der Vorhersagen zur Aufenthaltsdauer zu bewerten.

ICD-Kodierungsmetriken

Die Genauigkeit der ICD-Kodierung wurde in Bezug auf absolute Genauigkeit und Genauigkeit innerhalb der ersten paar Ziffern der Codes bewertet. Die Konfidenzwerte für Vorhersagen wurden ebenfalls gemessen, um die Zuverlässigkeit zu bewerten.

Die Forschung konzentrierte sich auf die Vorhersage von Mortalität, Aufenthaltsdauer und primärer ICD-Kodierung über verschiedene Temperatureinstellungen für die drei LLMs und verglich ihre Vorhersagen mit tatsächlichen klinischen Daten.

Ergebnisse

Mortalitätsvorhersage

Bei der Bewertung, wie gut die Modelle die In-Hospital-Mortalität vorhersagten, stellte sich heraus, dass Llama-3 die anderen konstant übertraf und eine Genauigkeit von etwa 90 % erreichte. GPT-4 folgte mit 80-83 % Genauigkeit, während GPT-3.5 mit etwa 74-76 % die niedrigste Genauigkeit hatte.

Bei den Wahrscheinlichkeitsvorhersagen waren die AUC-Werte für GPT-4 und Llama-3 stabil über die Temperatureinstellungen. Im Gegensatz dazu zeigte GPT-3.5 einen Rückgang der AUC, je höher die Temperaturen wurden.

Vorhersage der Aufenthaltsdauer

Die Analyse zur Vorhersage der Aufenthaltsdauer ergab, dass die Modelle in den verschiedenen Temperatureinstellungen eine gleichbleibende Leistung zeigten, wobei Llama-3 bei höheren Temperaturen leicht bessere Ergebnisse zeigte. GPT-3.5 hatte tendenziell höhere Fehlerquoten im Vergleich zu den anderen.

Genauigkeit der ICD-Kodierung

Bei der Betrachtung der Genauigkeit der ICD-Kodierung zeigten alle Modelle eine stabile Leistung über verschiedene Temperatureinstellungen hinweg. GPT-4 hatte insgesamt die höchste vollständige Genauigkeit von 17 %, während GPT-3.5 und Llama-3 niedriger waren. In Bezug auf die partielle Genauigkeit führte GPT-4 ebenfalls mit etwa 39 % Genauigkeit für zweistellige Codes.

Die Konfidenzwerte für jedes Modell blieben über verschiedene Temperatureinstellungen hinweg stabil, was darauf hindeutet, dass ihre Bewertungen ihrer eigenen Vorhersagen sich nicht wesentlich änderten.

Fazit

Insgesamt deuten die Ergebnisse dieser Studie darauf hin, dass LLMs wie GPT-4 und Llama-3 eine konsistente Genauigkeit über verschiedene Temperatureinstellungen für verschiedene klinische Aufgaben beibehalten können. Dies stellt die Annahme in Frage, dass niedrigere Temperaturen für effektives klinisches Denken erforderlich sind.

Diese Forschung hebt die Bedeutung hervor, Benchmarks zu entwickeln, um die Leistung von LLMs im Gesundheitswesen zu bewerten. Insbesondere muss der Fokus darauf liegen, wie diese Modelle mit unstrukturierten klinischen Daten umgehen, um ihre Verwendung in medizinischen Settings zu verbessern.

Obwohl die Forschung einige Einschränkungen hatte, einschliesslich des Fokus auf ausgewählte Modelle und Aufgaben, öffnet sie die Tür für zukünftige Studien, um die Vielfalt der Aufgaben und Datentypen zu erweitern, die mit diesen Modellen analysiert werden können. Indem diese Bereiche angegangen werden, können Forscher daran arbeiten, die Effektivität von LLMs im Gesundheitswesen zu verfeinern.

Originalquelle

Titel: Exploring Temperature Effects on Large Language Models Across Various Clinical Tasks

Zusammenfassung: Large Language Models (LLMs) are becoming integral to healthcare analytics. However, the influence of the temperature hyperparameter, which controls output randomness, remains poorly understood in clinical tasks. This study evaluates the effects of different temperature settings across various clinical tasks. We conducted a retrospective cohort study using electronic health records from the Mount Sinai Health System, collecting a random sample of 1283 patients from January to December 2023. Three LLMs (GPT-4, GPT-3.5, and Llama-3-70b) were tested at five temperature settings (0.2, 0.4, 0.6, 0.8, 1.0) for their ability to predict in-hospital mortality (binary classification), length of stay (regression), and the accuracy of medical coding (clinical reasoning). For mortality prediction, all models accuracies were generally stable across different temperatures. Llama-3 showed the highest accuracy, around 90%, followed by GPT-4 (80-83%) and GPT-3.5 (74-76%). Regression analysis for predicting the length of stay showed that all models performed consistently across different temperatures. In the medical coding task, performance was also stable across temperatures, with GPT-4 achieving the highest accuracy at 17% for complete code accuracy. Our study demonstrates that LLMs maintain consistent accuracy across different temperature settings for varied clinical tasks, challenging the assumption that lower temperatures are necessary for clinical reasoning.

Autoren: Dhavalkumar Patel, P. Timsina, G. Raut, R. Freeman, M. Levin, G. Nadkarni, B. S. Glicksberg, E. Klang

Letzte Aktualisierung: 2024-07-22 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2024.07.22.24310824

Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.07.22.24310824.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel