Verbesserung der Identifikation von Patienten mit atopischer Dermatitis
Neue Methoden verbessern die Identifikation von Patienten mit atopischer Dermatitis für klinische Studien.
― 9 min Lesedauer
Inhaltsverzeichnis
- Vorherige Forschung zu Atopischer Dermatitis
- Erstellung unseres Datensatzes
- Entwicklung von Patientenprofilen zur Klassifikation
- Ergebnisse der Satzklassifikationsexperimente
- Ergebnisse der Patientenklassifizierung
- Ergebnisse und Auswirkungen
- Zukünftige Richtungen
- Anwendungen der Forschung
- Fazit
- Originalquelle
Atopische Dermatitis (AD) ist 'ne verbreitete Hauterkrankung, die etwa 30 % der Bevölkerung betrifft. Meistens fängt das schon in der frühen Kindheit an, kann aber auch in jedem Alter beginnen. Die Symptome von AD sind rote, entzündete und juckende Haut, was sowohl körperlich als auch emotional ziemlich unangenehm sein kann. Leute mit AD haben oft auch andere allergische Probleme wie Asthma, saisonale Allergien und Nahrungsmittelallergien.
Man glaubt, dass AD mit Problemen der Hautbarriere und der Immunabwehr zusammenhängt. Genetische Faktoren und Umwelteinflüsse spielen auch 'ne Rolle bei der Entwicklung dieser Erkrankung. Die herkömmlichen Behandlungen für AD beinhalteten Feuchtigkeitscremes und topische Steroide. In letzter Zeit gab's Fortschritte bei den Behandlungsmöglichkeiten, einschliesslich neuer Medikamente, die helfen, die Immunantwort zu steuern, wie z.B. Dupilumab. Angesichts der weiten Verbreitung von AD besteht ein dringender Bedarf, besser zu verstehen, wie es sich entwickelt, wie effektiv neue Behandlungen sind und neue Optionen zur Behandlung der Erkrankung zu schaffen.
Forschung zu AD kann knifflig sein, weil es viel Zeit und Aufwand kostet, die richtige Gruppe von Patienten für Studien zu finden. Da AD häufig vorkommt und von vielen verschiedenen Ärzten in verschiedenen Gesundheitseinrichtungen behandelt wird, könnten die elektronischen Gesundheitsakten (EHRs) eines Gesundheitssystems eine wertvolle Ressource sein. Forscher verwenden oft spezifische Codes, die in der Gesundheitsabrechnung genutzt werden, um Patienten mit AD zu identifizieren. Allerdings ist es nicht besonders genau, sich nur auf diese Codes zu verlassen, was die Forschungsbemühungen komplizieren kann.
Deshalb gibt es einen wachsenden Bedarf an zuverlässigen Methoden, um Patienten mit AD schnell und genau aus ihren Akten zu identifizieren. Hier kommen Techniken wie natürliche Sprachverarbeitung (NLP) und maschinelles Lernen (ML) ins Spiel.
Vorherige Forschung zu Atopischer Dermatitis
Forscher haben zuvor daran gearbeitet, Patienten mit AD anhand von EHR-Daten zu identifizieren. Zum Beispiel haben einige Studien Modelle verwendet, um sowohl strukturierte Daten (wie Abrechnungscodes und Laborergebnisse) als auch unstrukturierte Daten (wie Notizen von Ärzten) zu analysieren. Sie haben jedem Patienten eine korrekte Diagnose zugewiesen, basierend auf gründlichen Überprüfungen durch medizinische Experten.
Unsere Forschung baut auf dieser Arbeit auf ein paar wichtigen Arten auf. Zuerst haben wir eine Vielzahl von Methoden zum Trainieren von Modellen untersucht, anstatt nur eine. Zweitens haben wir fortschrittliche Techniken verwendet, um die Informationen in den Patientenakten darzustellen. Schliesslich haben wir untersucht, wie unterschiedliche Ansätze zur Verarbeitung von Patientendaten die Genauigkeit bei der Identifizierung von AD-Betroffenen beeinflussen.
Die Hauptbeiträge unserer Arbeit sind:
- Wir schlagen eine regelbasierte Methode vor, um Informationen aus EHR-Daten zu sammeln, um Patientenprofile für Klassifikationszwecke zu erstellen.
- Wir führen eine Methode ein, die Transformermodelle (BERT) verwendet, um Informationen zu sammeln und Patienten basierend auf Wahrscheinlichkeiten zu klassifizieren.
- Wir vergleichen diese beiden Methoden, um zu sehen, ob eine besser abschneidet als die andere, besonders in Bezug darauf, wie effektiv sie Patienten mit AD identifizieren.
- Wir zeigen, dass spezifische Netzwerktypen verwendet werden können, um relevante Sätze in Patientenakten hervorzuheben, was es den Ärzten erleichtert, Notizen zu überprüfen, wenn sie nach geeigneten Kandidaten für Klinische Studien suchen.
Um zu bestimmen, ob ein Patient für eine AD-Studie basierend auf seinen Akten in Frage kommt, haben wir unsere Patientengruppe zuerst in Trainings- und Testsets aufgeteilt. Für jeden Patienten haben wir Informationen aus seinen medizinischen Akten gesammelt, um ein Profil zu erstellen, das Merkmale erscheint, die mit AD in Verbindung stehen. Schliesslich haben wir diese Profile verwendet, um verschiedene ML-Modelle zu trainieren, die darauf abzielen, vorherzusagen, ob jeder Patient AD hat.
Erstellung unseres Datensatzes
Wir haben angefangen, indem wir 2.000 Patienten und deren Akten aus der Datenbank eines Krankenhauses sampelten. Wir haben Patienten mit bestimmten AD-bezogenen Abrechnungscodes ausgewählt. Aus dieser Gruppe haben wir 1.926 Patienten mit klinischen Notizen für unsere Analyse gefunden. Wir haben persönliche Informationen aus diesen Akten gemäss den etablierten Datenschutzmethoden entfernt. Jede Akte wurde sorgfältig überprüft und markiert, ob der Patient die Kriterien für AD basierend auf den festgelegten Richtlinien erfüllt hat.
Um offiziell jemanden mit AD zu diagnostizieren, muss er juckende Haut und mindestens drei andere verwandte Anzeichen haben, wie z.B. frühere Hautprobleme, Asthma oder Heuschnupfen, trockene Haut, einen Ausschlag, der vor dem zweiten Lebensjahr begonnen hat, oder sichtbare Hautentzündungen in bestimmten Bereichen. Unser endgültiger Datensatz umfasste 137 Patienten mit AD und 1.789 ohne AD.
Aufteilen der Daten für die Analyse
Als Nächstes haben wir unseren Datensatz in Trainings- und Testsets aufgeteilt. Da wir viel mehr Patienten ohne AD hatten als mit AD, haben wir ein ausgewogenes Trainingsset erstellt. So hatten wir 109 Patienten mit AD und die gleiche Anzahl an Patienten ohne AD.
Wir haben auch zwei Testsets erstellt. Das erste Testset war ausgewogen, während das zweite realistische Situationen widerspiegelte, in denen ein höherer Prozentsatz der Patienten kein AD hat. Für das ausgewogene Set haben wir 20% unserer Patienten mit AD einbezogen und diese mit der gleichen Anzahl an Patienten ohne AD abgeglichen. Für das unausgewogene Set haben wir die gleichen Patienten mit AD genommen und zusätzliche Patienten ohne AD einbezogen, um ein Verhältnis von 30% mit AD zu 70% ohne zu erreichen.
Anstatt ein separates Set für das Feintuning unserer Modelle zu halten, haben wir eine Methode namens Kreuzvalidierung verwendet, um die besten Einstellungen für unsere Modelle während des Trainings zu bestimmen.
Entwicklung von Patientenprofilen zur Klassifikation
Als Nächstes haben wir ein Profil für jeden Patienten entwickelt. Wir haben drei Experimente durchgeführt, um verschiedene Methoden zur Erstellung dieser Profile zu vergleichen.
Erklärung der Patientenprofile
Jedes Patientenprofil enthält acht Punkte, die darstellen, ob der Patient verschiedene Kriterien für die Diagnose von AD erfüllt. Bei den ersten beiden Experimenten zeigt jeder Punkt einen Wahrscheinlichkeitswert, der angibt, wie wahrscheinlich es ist, dass die Akte des Patienten dieses spezifische Kriterium unterstützt. Im dritten Experiment zeigt jeder Punkt einfach ein Ja oder Nein, basierend darauf, ob relevante Informationen in der Akte des Patienten gefunden wurden.
In den ersten beiden Experimenten haben wir Profile basierend auf Wahrscheinlichkeiten erstellt, die von einzelnen Klassifikatoren abgeleitet wurden, die Sätze in den Akten des Patienten analysierten. Wir haben uns darauf konzentriert, zwei verschiedene Transformermodelle zu verwenden, um zu sehen, welches besser zur Erstellung dieser Profile geeignet ist.
Im dritten Experiment haben wir einen einfachen Ansatz verwendet, bei dem wir vermerkt haben, ob irgendwelche Sätze in der Akte auf das Vorliegen von Kriterien für AD hinwiesen.
Vorbereitung der Experimente
Vor Durchführung unserer Experimente haben wir die gleichen Schritte unternommen, um die Daten vorzubereiten. Wir haben Sätze in den medizinischen Akten anhand spezifischer Schlüsselwörter markiert, die mit den AD-Kriterien verbunden sind. Diese Vorbereitung beinhaltete die Verwendung eines Tools, um die Akten in Sätze aufzuteilen und dann diese Sätze basierend auf den identifizierten Schlüsselwörtern zu kategorisieren.
Nach der Kennzeichnung der Sätze haben wir drei verschiedene Experimente durchgeführt, um Patientenprofile zu erstellen.
Ergebnisse der Satzklassifikationsexperimente
In den ersten beiden Experimenten haben wir verschiedene Modelle trainiert, um Sätze zu klassifizieren, und die Leistung der beiden Transformermodelle überprüft. Das Modell, das am besten abgeschnitten hat, war das, das direkte Erwähnungen von AD identifiziert hat. Die Modelle, die am schlechtesten abgeschnitten haben, waren die, die Erwähnungen von Hauttrockenheit oder Asthma hervorgehoben haben.
Beim ersten Experiment mit dem klinischen Modell lag die Genauigkeit bei der Identifizierung von Sätzen zwischen 73,73 % für Erwähnungen von Hauttrockenheit und 90,02 % für direkte Erwähnungen von AD. Das zweite Experiment mit dem Standardmodell zeigte ähnliche Ergebnisse, wobei die Genauigkeit zwischen 72,69 % und 91,53 % lag.
Ergebnisse der Patientenklassifizierung
Dann haben wir die Leistung unserer Patientenklassifizierungsmodelle basierend auf verschiedenen Methoden zur Erstellung von Patientenprofilen verglichen. Im ersten Experiment haben wir das klinische Modell verwendet, um Profile zu generieren und verschiedene Algorithmen zu trainieren. Die Ergebnisse zeigten, dass unsere Genauigkeit zwischen 58,93 % und 73,21 % in einem ausgewogenen Testset lag, während das unausgewogene Set Ergebnisse zwischen 58,24 % und 72,53 % zeigte.
Die Verwendung des allgemeinen Modells zur Profilerstellung ergab niedrigere Genauigkeiten, die zwischen 51,79 % und 62,50 % für das ausgewogene Testset und zwischen 57,14 % und 67,03 % für das unausgewogene Set lagen.
Im dritten Experiment haben wir eine stärkere Leistung bei mehreren Klassifikatoren beobachtet, als wir einfach vermerkt haben, ob Sentinel-Sätze auf das Vorhandensein von AD-Kriterien hingewiesen haben.
Ergebnisse und Auswirkungen
Wir haben festgestellt, dass unsere Modelle gut darin abschneiden konnten, Patienten mit AD zu identifizieren. Der regelbasierte Ansatz des dritten Experiments lieferte manchmal bessere Ergebnisse sowohl in Bezug auf die Genauigkeit als auch auf die einfache Umsetzung. Das zeigt, dass einfachere Methoden effektiv AD-Fälle für klinische Studien identifizieren können.
Wichtiger ist, dass diese Ergebnisse darauf hindeuten, dass unsere Methoden Klinikern helfen könnten, Patientenakten effizienter zu überprüfen. Indem relevante Sätze in den Akten hervorgehoben werden, können diese Tools Ärzten Zeit sparen und sicherstellen, dass qualifizierte Kandidaten in klinischen Studien einbezogen werden.
Zukünftige Richtungen
Trotz vielversprechender Ergebnisse erkennen wir einige Einschränkungen an. Eine Hauptsorge ist die geringe Grösse unseres Datensatzes; aus fast 2.000 Patienten hatten nur 137 AD, was die Zuverlässigkeit unserer Ergebnisse beeinträchtigen könnte.
Eine weitere Einschränkung war die Eingabebeschränkung der verwendeten Transformermodelle. Diese Modelle akzeptieren nur eine feste Anzahl von Tokens, was bedeutete, dass längerer Text ignoriert wurde, wodurch wir die gesamte medizinische Akte nicht für die Analyse verwenden konnten.
Wir haben uns auch nur auf einige Indikatoren für AD konzentriert. Das Einbeziehen zusätzlicher Variablen oder Kombinationen von Indikatoren könnte die Leistung weiter verbessern.
Anwendungen der Forschung
Unsere Ergebnisse öffnen die Tür für die Implementierung dieser Methoden in Krankenhäusern, um die Überprüfung von EHRs zu optimieren. Zum Beispiel könnten Satzklassifizierer wichtige Informationen inline in Patientennotizen hervorheben, was es den Ärzten erleichtert, Symptome im Zusammenhang mit AD zu identifizieren.
Darüber hinaus könnte unser Rahmen Patientenfälle basierend darauf bewerten, wie eng sie mit den diagnostischen Kriterien für AD übereinstimmen, was die Arbeitsbelastung während der Überprüfungen verringert und möglicherweise den Rekrutierungsprozess für klinische Studien beschleunigt.
Fazit
Unsere Forschung präsentiert einen validierten Ansatz zur Identifizierung von Patienten mit atopischer Dermatitis, insbesondere im Kontext der Rekrutierung für klinische Studien. Indem wir traditionelle Methoden mit modernen Techniken des maschinellen Lernens vergleichen, haben wir gezeigt, dass einfachere Methoden manchmal bessere Ergebnisse liefern können. Diese Arbeit hat das Potenzial, die Effizienz der Patientenbewertung in klinischen Umgebungen zu verbessern und bietet eine Grundlage für zukünftige Forschungen. Wir hoffen, dass dieser Ansatz angepasst und erweitert werden kann, um auch für andere Erkrankungen genutzt zu werden und den Rekrutierungsprozess in der klinischen Forschung weiter zu optimieren.
Titel: Patient Phenotyping for Atopic Dermatitis with Transformers and Machine Learning
Zusammenfassung: BackgroundAtopic dermatitis (AD) is a chronic skin condition that millions of people around the world live with each day. Performing research studies into identifying the causes and treatment for this disease has great potential to provide benefit for these individuals. However, AD clinical trial recruitment is a non-trivial task due to variance in diagnostic precision and phenotypic definitions leveraged by different clinicians as well as time spent finding, recruiting, and enrolling patients by clinicians to become study subjects. Thus, there is a need for automatic and effective patient phenotyping for cohort recruitment. ObjectiveOur study aims to present an approach for identifying patients whose electronic health records suggest that they may have AD. MethodsWe created a vectorized representation of each patient and trained various supervised machine learning methods to classify when a patient has AD. Each patient is represented by a vector of either probabilities or binary values where each value indicates whether they meet a different criteria for AD diagnosis. Results: The most accurate AD classifier performed with a class-balanced accuracy of 0.8036, a precision of 0.8400, and a recall of 0.7500 when using XGBoost (Extreme Gradient Boosting). ConclusionsCreating an automated approach for identifying patient cohorts has the potential to accelerate, standardize, and automate the process of patient recruitment for AD studies; therefore, reducing clinician burden and informing knowledge discovery of better treatment options for AD.
Autoren: Danielle L Mowery, A. Wang, R. Fulton, S. Hwang, D. J. Margolis
Letzte Aktualisierung: 2023-12-04 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.08.25.23294636
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.08.25.23294636.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.