KI-Fortschritte bei der Diagnostik seltener Krankheiten
Ein neues KI-Modell verbessert die Erkennung seltener Krankheiten in Gesundheitsakten.
― 6 min Lesedauer
Inhaltsverzeichnis
- Herausforderungen bei der Diagnose seltener Krankheiten
- Die Rolle der Künstlichen Intelligenz in der Forschung zu seltenen Krankheiten
- Methodik: Training des KI-Modells
- Training und Validierung des Modells
- Leistungsmetriken
- Ergebnisse zu Vorhersagen seltener Krankheiten
- Vorhersagekraft von RarePT
- Verknüpfung von Vorhersagen seltener Krankheiten mit Gesundheitsoutcomes
- Identifizierung unterdiagnostizierter Fälle
- Schätzung undiagnostizierter Fälle
- Fazit
- Originalquelle
Seltene Krankheiten, oft als Waisenkrankheiten bezeichnet, betreffen nur eine kleine Anzahl von Menschen. In Europa gilt eine Krankheit als selten, wenn sie weniger als 1 von 2.000 Menschen betrifft, während es in den USA weniger als 200.000 Personen sind. Obwohl jede Krankheit selten ist, wird geschätzt, dass etwa 1 von 16 Menschen (oder 6,2% der Bevölkerung) an mindestens einer seltenen Krankheit leidet. Das stellt eine grosse Herausforderung für die öffentliche Gesundheit dar, da Menschen mit seltenen Krankheiten oft Schwierigkeiten haben, eine richtige Diagnose oder eine wirksame Behandlung zu erhalten.
Herausforderungen bei der Diagnose seltener Krankheiten
Die Schwierigkeiten bei der Bekämpfung seltener Krankheiten kommen aus mehreren Gründen. Ein grosses Problem ist die Herausforderung, diese Krankheiten zu studieren, da es nur eine begrenzte Anzahl von Patienten gibt. Diese Knappheit macht es schwierig, Studien oder klinische Versuche durchzuführen, die grössere Gruppen von Patienten erfordern. Ausserdem gibt es oft einen Mangel an klinischer Expertise und Diagnosewerkzeugen, die speziell für diese Bedingungen entwickelt wurden. Der finanzielle Aspekt spielt auch eine Rolle; die Entwicklung von Medikamenten für seltene Krankheiten ist für Pharmaunternehmen meist nicht profitabel genug.
Viele dieser seltenen Krankheiten bleiben unzureichend erforscht und schlecht diagnostiziert. Infolgedessen wissen Forscher möglicherweise nicht, wie viele Menschen betroffen sind oder wie viele undiagnostiziert bleiben. Um diese Lücken zu schliessen, werden Werkzeuge wie der MatchMaker Exchange genutzt, um Forschern zu helfen, ähnliche Fälle zu verbinden und so die Stichprobengrösse für wichtige Studien zu erhöhen.
Die Rolle der Künstlichen Intelligenz in der Forschung zu seltenen Krankheiten
In dieser Studie stellen wir einen neuen Ansatz vor, der Künstliche Intelligenz (KI) nutzt, um die Identifizierung seltener Krankheiten zu verbessern. Konkret haben wir ein KI-Modell entwickelt, das auf einer Deep-Learning-Transformer-Architektur basiert. Modelle wie BERT und GPT haben grossen Erfolg darin gezeigt, Konzepte in natürlicher Sprache zu verstehen. Wir haben diese Technologie für den medizinischen Einsatz angepasst, mit Fokus auf seltene Krankheiten.
Ein wesentlicher Vorteil dieses Ansatzes ist, dass er effektiv über seltene Zustände lernen kann, selbst wenn sie nur ein paar Mal in den Daten vorkommen. Wir haben ein modifiziertes Transformer-Modell erstellt, um seltene Krankheiten anhand von elektronischen Gesundheitsdaten (EHR) vorherzusagen.
Methodik: Training des KI-Modells
Das KI-Modell, das wir entwickelt haben und RarePT nennen, wurde mit EHR-Daten von über 436.000 Personen aus der UK Biobank trainiert. Es wurde auch in einer separaten Gruppe von über 3,3 Millionen Patienten des Mount Sinai Health Systems in New York validiert. Die Leistung von RarePT bei der Vorhersage seltener Krankheiten war beeindruckend und zeigte die Fähigkeit, Fälle über verschiedene ethnische Gruppen und Gesundheitssysteme hinweg genau zu identifizieren.
Training und Validierung des Modells
Um RarePT zu erstellen, haben wir eine Trainingsmethode namens Masked Diagnosis Modeling implementiert. Dabei werden Datensätze mit einer versteckten Diagnose genommen und das Modell wird gelehrt, die fehlenden Informationen basierend auf dem verbleibenden Kontext vorherzusagen. Diese Methode hilft sicherzustellen, dass selbst seltene Diagnosen effektiv erlernt werden können.
Die Trainingsbeispiele umfassten demografische Informationen, alle bekannten Diagnosen und spezifische Abfrage-Diagnosen. Wir haben die Architektur des Modells vereinfacht, sodass es die Daten effizient verarbeiten und seltene Krankheitsdiagnosen effektiv identifizieren kann.
Leistungsmetriken
Um zu messen, wie gut RarePT Diagnosen vorhersagte, haben wir ein diagnostisches Chancenverhältnis (OR) verwendet. Diese Kennzahl vergleicht die Chancen einer korrekten Identifizierung einer Diagnose, wenn das Modell einen Fall vorhersagt, mit den Chancen, wenn es einen Kontrollfall vorhersagt. Unsere Analyse zeigte, dass die Vorhersagen des Modells für seltene Krankheiten zuverlässig und konsistent waren, was die Vorhersagen sowohl durch die UK Biobank als auch durch die externe Mount Sinai Kohorte validierte.
Ergebnisse zu Vorhersagen seltener Krankheiten
Unsere Forschung offenbarte alarmierende Raten von undiagnostizierten seltenen Krankheitsfällen. Unter den Teilnehmern wurde bei 5,0% eine seltene Diagnose festgestellt, was mit den Schätzungen aus der allgemeinen Bevölkerung übereinstimmt.
Als wir RarePT bei seltenen Phecodes testeten – spezifische Codes, die Krankheiten in EHR darstellen – entdeckten wir, dass viele Personen, die nicht diagnostiziert waren, trotzdem medizinische Zeichen aufwiesen, die darauf hindeuteten, dass sie an diesen seltenen Krankheiten litten. Das weist auf eine besorgniserregende Lücke in den Diagnosen hin und unterstreicht den dringenden Bedarf an besseren Identifikationsmethoden.
Vorhersagekraft von RarePT
In unserem vollständigen Testdatensatz erzielte RarePT eine hohe Anzahl positiver Vorhersagen für jede der bewerteten seltenen Krankheiten. Das Modell zeigte, dass ein grosser Teil der Patienten Vorhersagen erhielt, die darauf hindeuteten, dass sie möglicherweise an einer seltenen Erkrankung leiden, selbst wenn sie nie diagnostiziert wurden.
Das Modell schnitt auch aussergewöhnlich gut ab, wenn es darum ging, zwischen verschiedenen seltenen Krankheiten zu unterscheiden, was sein Potenzial unterstreicht, ein wertvolles Werkzeug für die klinische Praxis zu sein.
Verknüpfung von Vorhersagen seltener Krankheiten mit Gesundheitsoutcomes
Wir haben weiter untersucht, wie die Vorhersagen von RarePT mit Gesundheitsoutcomes korrelierten, insbesondere in Bezug auf Sterberaten und Krankheitslast. Unsere Analyse deutete darauf hin, dass viele der vorhergesagten Fälle seltener Krankheiten mit einer höheren Sterbewahrscheinlichkeit verbunden waren.
Wir haben auch die Disability Adjusted Life Years (DALY) untersucht, ein Mass, das die gesamte Krankheitslast darstellt. Eine signifikante Anzahl von Vorhersagen seltener Krankheiten war mit höheren Behinderungsgraden und verlorenen Lebensjahren aufgrund von Krankheiten verbunden, was weiter bestätigt, dass diese Vorhersagen reale Gesundheitsherausforderungen widerspiegeln und keine blossen statistischen Anomalien sind.
Identifizierung unterdiagnostizierter Fälle
Durch unsere Analyse erkannten wir das drängende Problem der Unterdiagnose bei seltenen Krankheiten. Es ist häufig der Fall, dass Patienten mit seltenen Erkrankungen ihre Diagnosen nicht in ihren Gesundheitsakten vermerkt haben, was die Daten verfälscht und effektive Forschung behindert.
Schätzung undiagnostizierter Fälle
Um die Anzahl undiagnostizierter Fälle zu schätzen, verglichen wir die vorhergesagten Ergebnisse mit bekannten Ergebnissen. Unsere Erkenntnisse deuteten darauf hin, dass ein erheblicher Teil der als Kontrollen identifizierten Personen tatsächlich undiagnostizierte Fälle sein könnte. Bei vielen der befragten seltenen Krankheiten überstiegen die Mehrheit dieser undiagnostizierten Fälle deutlich diejenigen, die eine formelle Diagnose erhalten hatten.
Das betont die Wichtigkeit, innovative Methoden wie RarePT zu nutzen, um versteckte Fälle seltener Krankheiten in grossen Datensätzen zu identifizieren.
Fazit
Zusammenfassend stellt RarePT einen bedeutenden Fortschritt in der Diagnose seltener Krankheiten dar, indem es KI-Technologie nutzt, um die Vorhersagen basierend auf elektronischen Gesundheitsakten zu verbessern. Unsere Ergebnisse zeigen eine besorgniserregende Prävalenz undiagnostizierter seltener Krankheiten, was den Bedarf an verbesserten klinischen Praktiken unterstreicht.
Das Modell hat starke Leistungen bei der Identifizierung seltener Krankheiten in verschiedenen Populationen und Gesundheitssystemen gezeigt, was es zu einem vielversprechenden Werkzeug für Forscher und Kliniker macht. Darüber hinaus kann dieser Ansatz zu einer besseren Datenerhebung und Patientenidentifikation in zukünftigen Studien führen und hat das Potenzial für breitere Anwendungen im klinischen Umfeld.
Während wir weiterhin diese Technologie verfeinern und entwickeln, hoffen wir, das Bewusstsein und das Verständnis für seltene Krankheiten zu erhöhen, um letztendlich die Diagnose- und Behandlungsoptionen für Betroffene zu verbessern.
Titel: A deep learning transformer model predicts high rates of undiagnosed rare disease in large electronic health systems
Zusammenfassung: It is estimated that as many as 1 in 16 people worldwide suffer from rare diseases. Rare disease patients face difficulty finding diagnosis and treatment for their conditions, including long diagnostic odysseys, multiple incorrect diagnoses, and unavailable or prohibitively expensive treatments. As a result, it is likely that large electronic health record (EHR) systems include high numbers of participants suffering from undiagnosed rare disease. While this has been shown in detail for specific diseases, these studies are expensive and time consuming and have only been feasible to perform for a handful of the thousands of known rare diseases. The bulk of these undiagnosed cases are effectively hidden, with no straightforward way to differentiate them from healthy controls. The ability to access them at scale would enormously expand our capacity to study and develop drugs for rare diseases, adding to tools aimed at increasing availability of study cohorts for rare disease. In this study, we train a deep learning transformer algorithm, RarePT (Rare-Phenotype Prediction Transformer), to impute undiagnosed rare disease from EHR diagnosis codes in 436,407 participants in the UK Biobank and validated on an independent cohort from 3,333,560 individuals from the Mount Sinai Health System. We applied our model to 155 rare diagnosis codes with fewer than 250 cases each in the UK Biobank and predicted participants with elevated risk for each diagnosis, with the number of participants predicted to be at risk ranging from 85 to 22,000 for different diagnoses. These risk predictions are significantly associated with increased mortality for 65% of diagnoses, with disease burden expressed as disability-adjusted life years (DALY) for 73% of diagnoses, and with 72% of available disease-specific diagnostic tests. They are also highly enriched for known rare diagnoses in patients not included in the training set, with an odds ratio (OR) of 48.0 in cross-validation cohorts of the UK Biobank and an OR of 30.6 in the independent Mount Sinai Health System cohort. Most importantly, RarePT successfully screens for undiagnosed patients in 32 rare diseases with available diagnostic tests in the UK Biobank. Using the trained model to estimate the prevalence of undiagnosed disease in the UK Biobank for these 32 rare phenotypes, we find that at least 50% of patients remain undiagnosed for 20 of 32 diseases. These estimates provide empirical evidence of a high prevalence of undiagnosed rare disease, as well as demonstrating the enormous potential benefit of using RarePT to screen for undiagnosed rare disease patients in large electronic health systems.
Autoren: Ron Do, D. M. Jordan, H. M. T. Vy
Letzte Aktualisierung: 2023-12-24 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.12.21.23300393
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.12.21.23300393.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.