Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Gesundheitswissenschaften# Öffentliche und globale Gesundheit

Verbesserung der Vorhersagen von Grippehospitalisierungen durch Datenaugmentation

Eine neue Methode, um die Vorhersagen für Grippehospitalisierungen mit begrenzten historischen Daten zu verbessern.

― 6 min Lesedauer


Einblicke in dieEinblicke in dieKrankenhausaufenthaltewegen GrippeKrankenhausaufenthalten bei Grippe.Neue Methoden zur Vorhersage von
Inhaltsverzeichnis

Krankheitsmodellierung ist super wichtig, um Gesundheitsbehörden bei Bedrohungen wie der Grippe zu unterstützen. Ein Problem ist allerdings, dass wir nicht genug historische Daten haben, um genaue Vorhersagen über Krankenhausaufenthalte wegen der Grippe zu machen. Als wir mit der CDC-Gruppe FluSight gearbeitet haben, haben wir diese Herausforderung erkannt, als wir versucht haben, kurzfristige Grippekrankenhausaufenthalte in den USA vorherzusagen.

2020 hat das US-Gesundheitsministerium begonnen, Grippekrankenhausaufenthalte über ein System namens HHS Protect zu melden, das jetzt als National Healthcare Safety Network (NHSN) bekannt ist. Die Anforderung, diese Daten zu melden, galt nur von Februar 2022 bis April 2024. Deshalb haben wir gerade mal etwas über zwei Jahre zuverlässige Daten auf Bundesstaatsebene zu Grippekrankenhausaufenthalten. Mehr Daten könnten uns helfen, bessere Vorhersagen zu erstellen. Um das anzugehen, haben wir uns vorgenommen, die Lücken zu füllen, indem wir Grippekrankenhausaufenthalte aus der Zeit vor 2020 schätzen. Im Folgenden erklären wir unsere Methode, um diese Zeitreihe zu erweitern und unser Verständnis von Grippekrankenhausaufenthalten in den USA zu verbessern.

Datenquellen

Um einen Zeitstrahl für Grippekrankenhausaufenthalte zu erstellen, haben wir uns zwei verschiedene Datenquellen angesehen: FluSurv-NET (FSN) und ILINet. Diese beiden Systeme sind für die öffentliche Gesundheit wertvoll, haben aber ihre Grenzen. Zum Beispiel sammelt FSN nur Krankenhausaufenthalte aus ausgewählten Bundesstaaten und hat Daten, die bis 2009 zurückreichen. ILINet hingegen konzentriert sich auf ambulante Besuche wegen grippeähnlicher Erkrankungen, verfolgt aber keine Krankenhausaufenthalte und könnte Besuche wegen anderer Krankheiten beinhalten.

Da unser Ziel war, die Trends bei Krankenhausaufenthalten zu verstehen, haben wir entschieden, die Daten von FSN gegenüber ILINet zu priorisieren.

Datenanreicherungsprozess

Unser Prozess zur Erweiterung der Zeitreihe zu Grippekrankenhausaufenthalten bestand aus vier Hauptschritten: Verkettung, Interpolation, Extrapolation und Imputation. Um Verzerrungen bei der Schätzung historischer Daten zu reduzieren, haben wir die FSN-Daten für unsere Extrapolation verwendet. Zuerst mussten wir die Lücken während der Wochen ohne Grippesaison füllen, dafür kam die Interpolation ins Spiel. Schliesslich haben wir in der Verkettungsphase alle bestehenden Datensätze sorgfältig kombiniert.

Um loszulegen, haben wir FSN-Daten mit einem speziellen Softwaretool abgerufen und Informationen aus 19 Bundesstaaten gesammelt, deren Aufzeichnungen bis 2009 zurückreichen. Zudem haben wir FSN-Daten von Oktober 2020 bis April 2024 gesammelt. Allerdings berichtet FSN keine Daten ausserhalb der Grippesaison, weshalb Lücken in unseren Daten entstanden. Um das zu beheben, haben wir die Grippekrankenhausaufenthaltsdaten aus zwei Regionen im Bundesstaat New York gemittelt. Ausserdem haben wir ein anderes Softwaretool verwendet, um die Bevölkerungsdaten der Bundesstaaten hinzuzufügen, um die Krankenhausaufenthaltsraten in Rohzahlen umzuwandeln, damit sie mit der NHSN-Berichterstattung kompatibel sind.

Nachdem wir FSN- und NHSN-Daten kombiniert hatten, bemerkten wir viele Lücken bei Grippekrankenhausaufenthalten. Einige Bundesstaaten haben nie an FSN berichtet, während andere inkonsistent berichtet haben, besonders im Sommer und während der Pandemie.

Kurze Lücken

Die ersten Lücken, die wir angegangen sind, waren kurze in den FSN-Daten. Da diese Lücken entweder geringfügig waren oder in Zeiten, in denen die Grippekrankenhausaufenthalte allgemein niedrig waren, haben wir eine einfache Methode namens lineare Interpolation verwendet, um sie zu füllen. Allerdings haben wir unsere Interpolation auf Lücken von weniger als 26 Wochen beschränkt, um zu vermeiden, dass wir weitreichende Annahmen über längere Lücken machen.

Nach der Interpolation gab es immer noch viele fehlende Einträge, aber jetzt hatten wir zwei Spalten von Krankenhausaufenthaltsdaten für einige Bundesstaaten: eine von FSN und die andere von NHSN. Um unseren Datensatz zu vervollständigen, planten wir, eine Technik namens multivariate Imputation zu verwenden, die hilft, fehlende Werte basierend auf vorhandenen Daten zu schätzen. Aber um Genauigkeit zu gewährleisten, mussten wir die beiden Krankenhausaufenthaltsvariablen konsolidieren.

Extrapolationsschritt

Wir haben eine Umwandlungsmethode festgelegt, um NHSN-Krankenhausaufenthalte anhand der FSN-Daten zu schätzen. Wir verwendeten ein verallgemeinertes lineares Modell (GLM), das sich Fälle angesehen hat, in denen sowohl FSN- als auch NHSN-Daten verfügbar waren. Dieses Modell half, NHSN-Krankenhausaufenthalte vorherzusagen, wenn nur FSN-Daten vorhanden waren. Wir stellten fest, dass die FSN-Aufzeichnungen oft höhere Zahlen als NHSN zeigten, wir aber dennoch eine konsistente Zahl von Krankenhausaufenthalten mit Hilfe des GLM erstellen konnten.

Nach dieser Extrapolation hatten wir einen kombinierten Datensatz, der immer noch Lücken für Bundesstaaten enthielt, die nicht an FSN berichtet hatten. Dieser neue Datensatz bestand aus 17.062 Grippekrankenhausaufenthaltsaufzeichnungen, hatte aber immer noch 22.888 fehlende Aufzeichnungen. Um diese verbleibenden Lücken zu füllen, verwendeten wir eine Technik namens multiple Imputation, die fehlende Daten basierend auf vorhandenen Variablen wie Standort des Bundesstaates, Datum und Bevölkerungsgrösse schätzt.

Validierung des Imputationsprozesses

Um sicherzustellen, dass unsere Imputationsmethoden gültig waren, haben wir sie an begrenzten aktuellen Daten getestet, bei denen wir bereits NHSN-Signale hatten. Wir haben dies gemacht, indem wir vorübergehend einige Daten entfernt und überprüft haben, wie genau unsere Methoden die fehlenden Werte schätzen konnten. Insgesamt fanden wir, dass unsere Methoden ziemlich gut funktionierten, besonders während der regulären Grippesaisons, obwohl sie in den Pandemie-Jahren weniger genau waren.

Prognoseleistung

Mit unserem erweiterten Datensatz haben wir seine Nützlichkeit getestet, indem wir eine kurzfristige Vorhersage mit einem Zeitreihenansatz namens autoregressiv integrierte gleitende Durchschnitt (ARIMA) durchgeführt haben. Das ARIMA-Modell hilft, zukünftige Krankenhausaufenthaltszahlen basierend auf historischen Daten vorherzusagen. Wir haben verschiedene Datenversionen getestet, um herauszufinden, welche am besten abschneidet, einschliesslich des ursprünglichen NHSN-Datensatzes und des vollständigen erweiterten Datensatzes.

Auf nationaler Ebene gab es nicht viele Unterschiede, wie gut die Vorhersagen mit den ursprünglichen NHSN-Daten und den Variationen des imputierten Datensatzes funktionierten. Dennoch kam die beste Leistung von Modellen, die Grippekrankenhausaufenthalte vor Juni 2010 ausschlossen. Das deutete darauf hin, dass das Weglassen von Daten aus ungewöhnlichen Grippesaisons die Genauigkeit verbesserte.

Wenn wir uns die Vorhersagen auf Bundesstaatsebene angeschaut haben, haben wir festgestellt, dass Modelle, die Daten verwendeten, die vor 2010 endeten oder Pandemiefreiheiten beinhalteten, tendenziell besser abschnitten. Im Gegensatz dazu führte das Nichtbenutzen von erweiterten Daten oder nur das Entfernen der Pandemiejahre zu einer schlechteren Leistung. Das legt nahe, dass das Finden des richtigen Gleichgewichts zwischen der Tiefe historischer Daten und bedeutenden Gesundheitsereignissen zu besseren Prognoseergebnissen führen kann.

Fazit

Der Ansatz, den wir entwickelt haben, ist hilfreich für die Verbesserung von Vorhersagen zu Grippekrankenhausaufenthalten und zeigt, wie man epidemiologische Zeitreihen effektiv erweitern kann. Durch die Kombination von Daten aus FSN und NHSN haben wir eine kontinuierliche Schätzung der Grippekrankenhausaufenthalte auf Bundesstaatsebene bis zurück ins Jahr 2009 erstellt. Dieses erweiterte Datenset ist entscheidend, vor allem, da es nur wenige Jahre an tatsächlich gemeldeten Krankenhausaufenthaltsdaten gibt.

Zukünftige Arbeiten sollten sich darauf konzentrieren, die Einschränkungen unserer Methode zu beheben und die Imputationsmethoden zu validieren, während mehr NHSN-Daten verfügbar werden. Der Bedarf an effektiven Methoden zur Datenanreicherung ist wichtig, besonders da sich die Krankenhausberichterstattungsregeln weiterhin ändern. Darüber hinaus könnte unser Ansatz als Modell für andere Forscher dienen, die versuchen, ihre eigenen Daten in anderen Bereichen der öffentlichen Gesundheit zu erweitern.

Zusammenfassend lässt sich sagen, dass wir erfolgreich FSN- und NHSN-Daten kombiniert haben, um Lücken zu füllen und einen kontinuierlichen Zeitstrahl für Grippekrankenhausaufenthalte zu schaffen. Dieses neue Datenset wird wahrscheinlich die für Vorhersagen verwendeten Zeitreihenmodelle verbessern, was zu besseren Reaktionen und Strategien für die öffentliche Gesundheit führen wird.

Originalquelle

Titel: An Imputation-Based Approach for Augmenting Sparse Epidemiological Signals

Zusammenfassung: Near-term disease forecasting and scenario projection efforts rely on the availability of data to train and evaluate model performance. In most cases, more extensive epidemiological time series data can lead to better modeling results and improved public health insights. Here we describe a procedure to augment an epidemiological time series. We used reported flu hospitalization data from FluSurv-NET and the National Healthcare Safety Network to estimate a complete time series of flu hospitalization counts dating back to 2009. The augmentation process includes concatenation, interpolation, extrapolation, and imputation steps, each designed to address specific data gaps. We demonstrate the forecasting performance gain when the extended time series is used to train flu hospitalization models at the state and national level.

Autoren: Amy E Benefield, D. Williams, V. Nagraj

Letzte Aktualisierung: 2024-08-03 00:00:00

Sprache: English

Quell-URL: https://www.medrxiv.org/content/10.1101/2024.07.31.24311314

Quell-PDF: https://www.medrxiv.org/content/10.1101/2024.07.31.24311314.full.pdf

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an medrxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel