Daten sammeln in der Krebsforschung verbessern
Eine Studie zur Organisation von Behandlungsdaten für Hirntumorpatienten mit geschulten Nicht-Klinikern.
― 6 min Lesedauer
Inhaltsverzeichnis
Eine grosse Herausforderung in der Krebsforschung ist es, Informationen aus klinischen Dokumenten zu sammeln, die nicht richtig strukturiert sind. Diese unstrukturierten Datenquellen beinhalten Freitextnotizen, die Ärzte in elektronischen Gesundheitsakten (EHRs) schreiben. Wichtige Details wie der Zeitpunkt der Diagnose, die Art der Behandlung und Veränderungen im Zustand des Patienten erscheinen oft nur in diesen unstrukturierten Notizen.
Um diese Informationen zu bekommen, lesen Forscher normalerweise die EHRs durch und notieren relevante Details. Dieser manuelle Prozess kann viel Zeit in Anspruch nehmen und ziemlich teuer sein. Ausserdem kann die Qualität der gesammelten Daten leiden, wenn keine Best Practices befolgt werden, was zu verschwendeter Mühe führt. Obwohl es Technologien gibt, die dafür gedacht sind, diese Aufgabe zu automatisieren, kämpfen sie oft mit der Genauigkeit und passen möglicherweise nicht gut auf alle Situationen. Aufgrund dieser Probleme wird das manuelle Datensammeln wahrscheinlich noch eine Weile eine grosse Rolle in der Forschung spielen. Daher ist es wichtig, bessere Methoden zu finden, um diesen Prozess zu beschleunigen.
Bedeutung von Medikationsaufzeichnungen
Medikationsaufzeichnungen aus EHRs sind entscheidend für die klinische Forschung, besonders in der Krebsbehandlung. Es ist wichtig, den Zeitpunkt der Medikation und wie Patienten darauf reagieren, genau zu verfolgen, um informierte Behandlungsentscheidungen zu treffen. Diese Zeitlinie der Behandlung wird als „Line of Therapy“ (LOT) bezeichnet. Sie gibt an, welche spezifische Behandlung ein Patient in bestimmten Zeiträumen erhalten hat.
Allerdings kann es knifflig sein, die genauen Start- und Enddaten für diese Behandlungsreihen festzulegen. Die Aufzeichnungen geben möglicherweise nicht klar diese Daten an, und Forscher müssen Entscheidungen treffen, wie sie mit komplexen Situationen umgehen, wie zum Beispiel wenn ein Medikament zu einem Behandlungsplan hinzugefügt oder entfernt wird. Dieses Fehlen klarer Dokumentation macht es schwierig, gründliche Analysen von Behandlungen durchzuführen.
Um diese Probleme anzugehen, haben wir ein flexibles System entwickelt, um Medikationsdaten für Patienten mit einer Art von Hirntumor, genannt Glioblastom multiforme (GBM), in LOTs zu organisieren. GBM ist häufig und hat eine niedrige Überlebensrate, was eine effektive Behandlung entscheidend macht. Daher ist es wichtig, effiziente Wege zu finden, um LOT-Informationen aus den EHRs von GBM-Patienten zu sammeln.
Datenbeschaffungsprozess
Für unsere Studie haben wir Daten von Patienten analysiert, die über mehrere Jahre in einem Krankenhaus behandelt wurden. Wir haben die Genehmigung erhalten, diese Daten ethisch zu analysieren. Wir haben Patienten identifiziert, die mit GBM diagnostiziert wurden, indem wir sowohl manuelle Datensammlungen als auch einige Techniken des maschinellen Lernens verwendet haben. Von fast 1.200 zunächst erfassten Patienten haben wir ungefähr 700 durch sorgfältige Datensammlung als GBM-Patienten bestätigt.
Um diese Daten zu sammeln, haben wir Studenten trainiert, die keine Gesundheitsfachkräfte sind, um Informationen über GBM-Patienten zu sammeln. Diese Schulung beinhaltete die Vermittlung von wichtigen medizinischen Begriffen und wie man Charts effektiv überprüft. Durch detaillierte Anweisungen und Übungsbeispiele wollten wir herausfinden, ob ihre Datensammlung mit der von erfahrenen Klinikern mithalten kann.
Datenabstraktionsschritte
Der erste Schritt bestand darin, die Aufzeichnungen von Patienten, bei denen GBM vermutet wurde, zu überprüfen. Ein Team von Medizinstudenten arbeitete zusammen mit Klinikern, um die Nuancen der Daten zu verstehen, die sie studierten. Sie entwickelten eine Anleitungen, die Nicht-Profis bei ihren Chart-Überprüfungen helfen sollte.
Ein strukturiertes Tool wurde für die Datensammlung erstellt, bei dem die Studenten Ja- oder Nein-Fragen beantworten und Optionen aus Dropdown-Menüs auswählen konnten. Diese Methode half dabei, die Daten organisiert zu halten und für zukünftige Studien leicht nutzbar zu machen.
Das Testen dieses Prozesses ermöglichte es uns, unsere Anweisungen basierend auf dem Feedback zu verfeinern und Bereiche zu identifizieren, in denen Verbesserungen nötig waren. Zum Beispiel haben wir gelernt, dass die Daten verwirrend sein konnten, wenn der falsche Eintrag verwendet wurde. Durch dieses Pilotprojekt haben wir sowohl den Datensammelprozess als auch die Schulung der Studenten verbessert.
Algorithmus zur Organisation von Behandlungsdaten
Nach der Datensammlung haben wir einen Algorithmus entwickelt, um die Daten zur Medikamentengabe in definierte LOTs zu überführen. Dieses automatisierte System hilft dabei, Behandlungsinformationen zu organisieren, die oft chaotisch erscheinen, wenn man sie im Rohformat betrachtet.
Wir haben verschiedene Arten von Krebsbehandlungen in diese Analyse einbezogen, wie Chemotherapie und zielgerichtete Therapien. Die Regeln zur Definition von LOTs helfen dabei, die Anfangs- und Enddaten basierend darauf zu bestimmen, wann Medikamente an Patienten verabreicht werden. Wenn es zum Beispiel eine Lücke von 90 Tagen in der Behandlung gibt, würde das den Beginn einer neuen Behandlungsreihe signalisieren.
Sobald wir die LOT-Daten erzeugt haben, hat ein Neuro-Onkologe die Ergebnisse überprüft, um sicherzustellen, dass sie mit den erwarteten Behandlungspraktiken für GBM übereinstimmen.
Bewertung der Datenqualitätskontrolle
Wir haben überprüft, wie genau die Studenten Daten gesammelt haben, indem wir ihre Ergebnisse mit denen der Klinikern verglichen haben. Dieser Vergleich beinhaltete das Ansehen von Charts, die von beiden Gruppen überprüft wurden. Die Zuverlässigkeitsanalyse zeigte, dass die Studenten im Vergleich zu den Klinikern sehr gut abschnitten.
Tatsächlich erzielten die nicht-professionellen Abstractoren Ergebnisse, die in der Qualität mit denen der medizinischen Fachkräfte vergleichbar waren. Das zeigt, dass es möglich ist, Personen ohne medizinische Expertise auszubilden, um hochwertige Daten zu sammeln, was potenziell die Kosten für die Datenabstraktion senken könnte.
Analyse von Behandlungsmustern
Durch unsere organisierten LOT-Daten konnten wir Behandlungsmuster bei GBM-Patienten analysieren. Wir fanden heraus, dass eine häufige Erstbehandlung Temozolomid war, wobei viele Patienten schliesslich zu einer Zweitbehandlung übergingen.
Indem wir untersucht haben, wie Patienten von einer Behandlungsreihe zur nächsten übergingen, haben wir Einblicke in die typischen Behandlungswege gewonnen. Zum Beispiel setzten die meisten Patienten, die mit Temozolomid begonnen hatten, die Behandlung nicht lange fort, während diejenigen, die eine Kombination aus Temozolomid und einem anderen Medikament erhielten, längere Behandlungszeiten hatten.
Wir haben auch untersucht, wie lange Patienten warteten, bevor sie mit ihrer nächsten Behandlung nach Abschluss der ersten begannen. Diese Analyse zeigte, dass diejenigen, die kombinierte Therapien erhielten, bessere Nachverfolgungszeiten hatten als andere. Das Verständnis dieser Muster kann Ärzten helfen, in Zukunft bessere Behandlungsentscheidungen zu treffen.
Einschränkungen und zukünftige Richtungen
Obwohl unsere Studie wertvolle Einblicke geliefert hat, gab es einige Einschränkungen. Zum Beispiel basierte die anfängliche Identifizierung von GBM-Patienten teilweise auf einem maschinellen Lernmodell, was möglicherweise zu einigen falsch kategorisierten Fällen geführt hat. Ausserdem war die Gesamtstichprobe für die LOT-Analyse klein, da die Behandlungsaufzeichnungen in den EHRs limitiert waren.
Unser Algorithmus, obwohl effektiv, basiert immer noch auf grundlegenden Regeln und berücksichtigt möglicherweise nicht jedes klinische Detail. Zukünftige Arbeiten könnten sich darauf konzentrieren, diese Regeln zu verfeinern und die Ergebnisse mit grösseren Datensätzen zu validieren.
Fazit
Zusammenfassend ist es eine Herausforderung, bedeutungsvolle Daten aus unstrukturierten klinischen Dokumenten zu sammeln, aber es ist entscheidend für die Krebsforschung. Unsere Studie hebt einen Weg hervor, um Nicht-Kliniker für die Datenabstraktion zu nutzen und ein organisiertes System zur Analyse von Behandlungsmustern bei GBM-Patienten zu schaffen.
Dieser Ansatz eröffnet nicht nur neue Möglichkeiten für effektivere Datensammlungen, sondern unterstützt auch die Entwicklung besserer Behandlungen, indem wertvolle Einblicke in die Patientenversorgung offenbart werden. Insgesamt können die Methoden, die wir erkundet haben, auf eine Vielzahl von klinischen Forschungsszenarien angewendet werden, was letztlich zu verbesserten Versorgungsstandards für Krebspatienten beiträgt.
Titel: Data-driven extraction of unstructured electronic health records to evaluate glioblastoma treatment patterns
Zusammenfassung: BackgroundData on lines of therapy (LOTs) for cancer treatment is important for clinical oncology research, but LOTs are not explicitly recorded in EHRs. We present an efficient approach for clinical data abstraction and a flexible algorithm to derive LOTs from EHR-based medication data on patients with glioblastoma (GBM). MethodsNon-clinicians were trained to abstract the diagnosis of GBM from EHRs, and their accuracy was compared to abstraction performed by clinicians. The resulting data was used to build a cohort of patients with confirmed GBM diagnosis. An algorithm was developed to derive LOTs using structured medication data, accounting for the addition and discontinuation of therapies and drug class. Descriptive statistics were calculated and time-to-next-treatment analysis was performed using the Kaplan-Meier method. ResultsTreating clinicians as the gold standard, non-clinicians abstracted GBM diagnosis with sensitivity 0.98, specificity 1.00, PPV 1.00, and NPV 0.90, suggesting that non-clinician abstraction of GBM diagnosis was comparable to clinician abstraction. Out of 693 patients with a confirmed diagnosis of GBM, 246 patients contained structured information about the types of medications received. Of those, 165 (67.1%) received a first-line therapy (1L) of temozolomide, and the median time-to-next-treatment from the start of 1L was 179 days. ConclusionsWe also developed a flexible, interpretable, and easy-to-implement algorithm to derive LOTs given EHR data on medication orders and administrations that can be used to create high-quality datasets for outcomes research. We also showed that the cost of chart abstraction can be reduced by training non-clinicians instead of clinicians. Importance of the studyThis study proposes an efficient and accurate method to extract unstructured data from electronic health records (EHRs) for cancer outcomes research. The study addresses the limitations of manual abstraction of unstructured clinical data and presents a reproducible, low-cost workflow for clinical data abstraction and a flexible algorithm to derive lines of therapy (LOTs) from EHR-based structured medication data. The LOT data was used to conduct a descriptive treatment pattern analysis and a time-to-next-treatment analysis to demonstrate how EHR-derived unstructured data can be transformed to answer diverse clinical research questions. The study also investigates the feasibility of training non-clinicians to perform abstraction of GBM data, demonstrating that with detailed explanations of clinical documentation, best practices for chart review, and quantitative evaluation of abstraction performance, similar data quality to abstraction performed by clinicians can be achieved. The findings of this study have important implications for improving cancer outcomes research and facilitating the analysis of EHR-derived treatment data.
Autoren: Akshay Swaminathan, A. Ren, J. Y. Wu, A. Bhargava-Shah, I. Lopez, U. Srivastava, V. Alexopoulos, R. Pizzitola, B. Bui, L. Alkhani, S. Lee, N. Mohit, N. Seo, N. Macedo, W. Cheng, W. Wang, E. Tran, R. Thomas, O. Gevaert
Letzte Aktualisierung: 2023-04-28 00:00:00
Sprache: English
Quell-URL: https://www.medrxiv.org/content/10.1101/2023.04.25.23289047
Quell-PDF: https://www.medrxiv.org/content/10.1101/2023.04.25.23289047.full.pdf
Lizenz: https://creativecommons.org/licenses/by-nc/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.