Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Maschinelles Lernen

Bewertung von Sprachmodellen im Gesundheitswesen: Ein neues Datenset

Ein neuer Datensatz hilft dabei, Sprachmodelle für Gesundheitsanwendungen zu bewerten.

― 7 min Lesedauer


Sprachmodelle in derSprachmodelle in derGesundheitsbewertungklinischen Umgebungen.Neuer Datensatz bewertet KI in
Inhaltsverzeichnis

Grosse Sprachmodelle (LLMs) haben gezeigt, dass sie Anweisungen in natürlicher Sprache auf einem beeindruckenden Niveau folgen können. Diese Fähigkeit ist im Gesundheitswesen wichtig, wo es viel Papierkram und Datenmanagement gibt. LLMs könnten helfen, diese Arbeitslast zu reduzieren und die Qualität der Versorgung zu verbessern. Allerdings ist es nicht einfach, diese Modelle in echten Gesundheitssituationen zu testen. Aktuelle Datensätze zur Bewertung von LLMs erfassen meist nicht die Komplexität der Informationen, mit denen Ärzte täglich umgehen.

Die Herausforderung

Aktuelle Frage-Antwort-Datensätze für elektronische Gesundheitsakten (EHR) zeigen nicht effektiv die komplizierten Bedürfnisse und Belastungen, mit denen Kliniker konfrontiert sind. Aufgrund dieser Einschränkung haben wir einen neuen Datensatz erstellt, der eine Vielzahl von Anweisungen von Ärzten enthält, wie man EHR-Daten verwenden kann. Dieser Datensatz wurde speziell erstellt, um die Leistung von LLMs im Gesundheitswesen zu bewerten.

Der Datensatz

Unser neuer Benchmark-Datensatz enthält eine Reihe von Anweisungen in natürlicher Sprache für EHR-Daten. Dieser Datensatz wurde von Fachleuten aus verschiedenen medizinischen Spezialgebieten erstellt, was ihm eine breite Reichweite verleiht. Jede Anweisung ist mit von Klinikern verfassten Antworten und EHRs kombiniert, die reale Beispiele dafür bieten, wie man mit verschiedenen Gesundheitssituationen umgeht.

Um zu bewerten, wie gut LLMs auf diese Anweisungen reagieren können, haben wir Kliniker gebeten, die Genauigkeit und Qualität der Antworten von sechs verschiedenen allgemeinen LLMs zu bewerten. Die Ergebnisse zeigten signifikante Fehlerquoten bei den Modellen und deuten darauf hin, dass es noch ein langer Weg ist, bevor LLMs den Erwartungen in einem klinischen Umfeld gerecht werden können.

Bedeutung des Kontexts

LLMs können gut abschneiden, wenn sie den richtigen Kontext erhalten. Zum Beispiel fiel die Genauigkeit eines Modells um 8,3%, als die Kontextlänge reduziert wurde. Das hebt hervor, wie wichtig ausreichende Informationen für bessere Antworten sind. Im Gesundheitswesen ist der Kontext entscheidend, da er die Interpretation von Daten verändern kann.

Aufgaben für Kliniker

Kliniker verbringen einen grossen Teil ihres Tages mit Aufgaben, die durch den Einsatz von LLMs vereinfacht werden könnten. Aufgaben wie das Zusammenfassen der Behandlungsgeschichte eines Patienten, das Generieren von Diagnosen aus Laborergebnissen oder das Überprüfen klinischer Notizen erfordern viel Zeit und Energie. Durch den Einsatz von LLMs könnten diese Aufgaben optimiert werden, sodass Ärzte mehr Zeit mit ihren Patienten verbringen und weniger Zeit mit Dokumentation verbringen.

Aktuelle Einschränkungen

Trotz der Begeisterung, dass LLMs das Gesundheitswesen potenziell verändern könnten, haben bisherige Bewertungen die vielfältigen Aufgaben, mit denen Ärzte bei EHR-Daten konfrontiert sind, nicht genau dargestellt. Wir glauben, dass LLMs mit den jüngsten Fortschritten in den Fähigkeiten zur Befolgung von Anweisungen einige der Belastungen, mit denen Gesundheitsfachkräfte konfrontiert sind, verringern könnten.

Allerdings ist es eine Herausforderung, einen Datensatz zu erstellen, der wirklich die Bedürfnisse der Kliniker widerspiegelt. Diese Schwierigkeiten umfassen das Sammeln einer breiten Palette von Fragen von praktizierenden Klinikern, die mit EHRs aus Krankenhaus- und ambulanter Versorgung abgeglichen werden können. Darüber hinaus muss die Datenbasis sowohl strukturierte als auch unstrukturierte Informationen enthalten, um LLMs wirklich zu helfen, die realen Bedürfnisse der Kliniker zu verstehen.

Beiträge

Als Reaktion auf diese Herausforderungen präsentieren wir drei Hauptbeiträge:

  1. Datensatz-Erstellung: Wir stellen einen Datensatz von Anweisungen vor, der von Klinikern aus verschiedenen Fachrichtungen erstellt wurde. Für viele Anweisungen fügen wir klinikererstellte Referenzantworten und zugehörige EHRs hinzu, um die Aufforderungen zu untermauern.

  2. Anweisungs-EHR-Zuordnung: Wir beschreiben eine Methode, um Anweisungen von Klinikern effektiv mit relevanten EHRs zu verknüpfen, was die Effizienz des Datensatz-Erstellungsprozesses steigert.

  3. Automatisierte Bewertung: Wir bewerten, wie gut LLMs abschneiden, indem wir Metriken verwenden, die die Rankings der Klinikern mit automatisierten Bewertungen der natürlichen Sprachgenerierung in Beziehung setzen.

Der Bedarf an besseren Daten

Das Volumen der Patientendaten wächst rasch und wird immer komplexer. Dieses Wachstum durch robuste LLMs zu adressieren, die EHR-Daten effektiv verarbeiten können, könnte die Belastung für die Kliniker verringern. Aktuelle Datensätze konzentrieren sich oft zu eng auf spezifische Fragen oder vereinfachen Aufgaben so weit, dass sie die tatsächlichen Nuancen der Gesundheitsbedürfnisse nicht erfassen.

Indem wir einen Datensatz bereitstellen, der besser auf reale klinische Aufgaben ausgerichtet ist, können wir bessere Werkzeuge für LLMs schaffen, um mit EHR-Daten zu arbeiten. Das könnte sowohl die Arbeitsabläufe der Kliniker als auch die Patientenergebnisse verbessern.

Datensatz-Kuration

Die Erstellung unseres Datensatzes beinhaltete einen sorgfältigen Kuriationsprozess. Wir sammelten Anweisungen von Ärzten in unserem medizinischen Zentrum und boten eine Plattform, auf der sie einzigartige Anfragen einreichen konnten. Jede Anweisung musste mit Kontext über die klinische Situation begleitet werden, in der sie anwendbar wäre.

Anschliessend haben wir diese Anweisungen mit relevanten EHRs unter Verwendung einer Abrufmethode verknüpft, die in etwa 74% der Fälle effektiv war. Das bedeutet, dass unsere Methode die EHRs, die für die spezifischen Anweisungen relevant waren, die meiste Zeit finden konnte, was die Datenqualität, die wir sammeln wollten, erheblich verbesserte.

Anweisungen sammeln

Für den Prozess der Anweisungssammlung haben wir ein Online-Formular verwendet. Kliniker wurden aufgefordert, Anweisungen zu entwickeln, die sie von einem KI-Tool für Hilfsaufgaben in ihrer täglichen Praxis haben möchten. Ein Schlüsselelement war, dass die Anweisungen klar und relevant für die allgemeine Patientenpopulation sein mussten.

Antworten bewerten

Als wir die Anweisungen mit EHRs abgeglichen hatten, wurden die Kliniker gebeten, Antworten basierend auf den bereitgestellten Daten zu generieren. Sie mussten sicherstellen, dass die EHR alle relevanten Informationen enthielt, die nötig waren, um die Anweisung zu adressieren. Diese Bewertung erforderte gründliche Überprüfungsprozesse und strenge Expertise von den beteiligten Klinikern.

Datensätze und Leistung

Unser Datensatz umfasst eine erhebliche Anzahl klinikererstellter Anweisungen aus verschiedenen medizinischen Fachrichtungen und spiegelt eine reiche Vielfalt klinischer Szenarien wider. Die Leistung der LLMs wurde basierend darauf bewertet, wie genau sie auf Anweisungen unter Verwendung der kontextuellen Informationen in den EHRs reagieren konnten.

Wir entdeckten bemerkenswerte Unterschiede zwischen den Modellen. Insbesondere schnitten die fortgeschritteneren Modelle wie GPT-4 deutlich besser ab als kleinere, quelloffene Optionen. Die Gesamtgenauigkeitsrate der Antworten variierte stark, was zeigt, dass nicht alle LLMs in der Lage sind, klinische Aufgaben gleich gut zu bewältigen.

Leistung aufschlüsseln

Wenn es um die tatsächliche Leistung der LLMs geht, zeigen die Ergebnisse, dass die Verwendung fortgeschrittener Modelle oft zu besserer Klarheit und Genauigkeit in den Antworten führt. Beispielsweise hatten LLMs mit grösseren Kontextlängen eine bessere Leistung im Vergleich zu denen mit kürzeren Längen. Das verstärkt die Vorstellung, dass der Kontext wichtig ist, besonders in komplexen Bereichen wie dem Gesundheitswesen.

Automatische Bewertungsmetriken

Neben manuellen Bewertungen haben wir auch automatisierte Metriken zur Bewertung der LLM-Leistung untersucht. Diese Metriken können helfen, grosse Mengen an Antworten schnell zu sortieren, während sie einen Benchmark im Vergleich zu den Bewertungen der Kliniker bieten. Automatisierte Methoden zeigten vielversprechende Korrelationen mit menschlichen Rankings, was darauf hindeutet, dass sie ein nützliches Werkzeug für zukünftige Bewertungen sein könnten.

Sicherheit und Compliance

Beim Umgang mit sensiblen Patientendaten waren strenge Sicherheits- und Compliance-Vorschriften entscheidend. Das Projekt hielt sich an die Protokolle des Prüfungsausschusses der Institution und stellte sicher, dass die Daten anonymisiert wurden, um die Privatsphäre der Patienten zu schützen. Die beteiligten Forscher wurden vor der Arbeit mit Daten in Datenschutzpraktiken geschult.

Fazit

Zusammenfassend präsentiert unsere Arbeit einen Weg nach vorn für die Bewertung und Nutzung von LLMs im Gesundheitswesen. Wir haben die Grundlagen gelegt, indem wir einen Datensatz geschaffen haben, der auf die realen Aufgaben der Kliniker bei der Arbeit mit EHRs zugeschnitten ist.

Indem wir die Kluft zwischen LLM-Fähigkeiten und den Realitäten des Gesundheitswesens überbrücken, können wir beginnen, das Potenzial dieser Modelle zu erschliessen, um administrative Aufgaben zu optimieren und die Patientenversorgung zu verbessern. Weitere Anstrengungen werden fortgesetzt, um die verfügbaren Werkzeuge zu verfeinern, damit sie zuverlässig und vorteilhaft für die medizinische Gemeinschaft sind.

Der Übergang zur Integration fortgeschrittener Sprachmodelle in klinische Umgebungen erfordert kontinuierliche Zusammenarbeit und Erkundung bewährter Verfahren. Mit fortlaufenden Verbesserungen in der Datenqualität, in der Methodenentwicklung und in der Technologie sind wir optimistisch in Bezug auf die Zukunft von KI im Gesundheitswesen.

Originalquelle

Titel: MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records

Zusammenfassung: The ability of large language models (LLMs) to follow natural language instructions with human-level fluency suggests many opportunities in healthcare to reduce administrative burden and improve quality of care. However, evaluating LLMs on realistic text generation tasks for healthcare remains challenging. Existing question answering datasets for electronic health record (EHR) data fail to capture the complexity of information needs and documentation burdens experienced by clinicians. To address these challenges, we introduce MedAlign, a benchmark dataset of 983 natural language instructions for EHR data. MedAlign is curated by 15 clinicians (7 specialities), includes clinician-written reference responses for 303 instructions, and provides 276 longitudinal EHRs for grounding instruction-response pairs. We used MedAlign to evaluate 6 general domain LLMs, having clinicians rank the accuracy and quality of each LLM response. We found high error rates, ranging from 35% (GPT-4) to 68% (MPT-7B-Instruct), and an 8.3% drop in accuracy moving from 32k to 2k context lengths for GPT-4. Finally, we report correlations between clinician rankings and automated natural language generation metrics as a way to rank LLMs without human review. We make MedAlign available under a research data use agreement to enable LLM evaluations on tasks aligned with clinician needs and preferences.

Autoren: Scott L. Fleming, Alejandro Lozano, William J. Haberkorn, Jenelle A. Jindal, Eduardo P. Reis, Rahul Thapa, Louis Blankemeier, Julian Z. Genkins, Ethan Steinberg, Ashwin Nayak, Birju S. Patel, Chia-Chun Chiang, Alison Callahan, Zepeng Huo, Sergios Gatidis, Scott J. Adams, Oluseyi Fayanju, Shreya J. Shah, Thomas Savage, Ethan Goh, Akshay S. Chaudhari, Nima Aghaeepour, Christopher Sharp, Michael A. Pfeffer, Percy Liang, Jonathan H. Chen, Keith E. Morse, Emma P. Brunskill, Jason A. Fries, Nigam H. Shah

Letzte Aktualisierung: 2023-12-24 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.14089

Quell-PDF: https://arxiv.org/pdf/2308.14089

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel