Analisi dettagliata dei dati COVID-19 a Taiwan
Un dataset completo rivela informazioni sui casi di COVID-19 a Taiwan.
― 7 leggere min
Indice
I modelli attuali per monitorare malattie come il COVID-19 dipendono spesso dai dati raccolti da grandi gruppi di persone. Questi dati di solito mirano a misurare quante persone sono infette o quanti morti ci sono stati. Purtroppo, ottenere numeri accurati può essere difficile perché il numero di test non è sempre sufficiente per catturare tutti gli infetti. Per esempio, a Stoccolma, i ricercatori hanno scoperto che circa il 12,5% della popolazione era stato esposto al virus, il che significa che il numero reale di infezioni potrebbe essere molto più alto di quanto confermato ufficialmente.
Stimare quante persone sono morte a causa del virus è anche complicato. L'Organizzazione Mondiale della Sanità ha riportato circa 15 milioni di morti in più rispetto ai 5,4 milioni di morti confermati a causa del COVID-19 entro la fine del 2021. Altre stime suggeriscono che il numero di Morti in eccesso potrebbe essere tra i 15 milioni e i 25,2 milioni. Queste discrepanze mostrano che i metodi abituali per misurare l'impatto della malattia non sono sempre affidabili.
Per ottenere migliori informazioni, è meglio usare dati dettagliati da casi individuali piuttosto che solo da grandi gruppi. Ad esempio, ci sono rapporti su casi specifici di COVID-19 che dettagliano il percorso di ogni persona attraverso la malattia. Questo include informazioni sui loro Sintomi, quando si sono ammalati e le cure ricevute. Questo livello di dettaglio aiuta a prevedere chi potrebbe essere a rischio di malattia grave o di morte.
Alcuni ricercatori hanno sviluppato strumenti che usano dati a livello individuale per prevedere gli esiti per i pazienti con COVID-19. Uno di questi strumenti, ad esempio, utilizza dati di pazienti che sono stati ricoverati in ospedale per prevedere la probabilità di malattia grave o morte entro una settimana. Altri sistemi esaminano vari fattori come età e problemi di salute esistenti per prevedere quanto è probabile che qualcuno peggiori da una malattia moderata a una grave. Tuttavia, questi set di dati individuali non sono sempre disponibili pubblicamente.
In questo progetto, i dati sono stati raccolti da varie fonti online aperte per creare un dataset dettagliato e organizzato. Questo dataset include informazioni come demografia, progresso della malattia e tracciamento dei contatti, che possono aiutare a capire come si diffonde COVID-19 e come colpisce le persone.
Raccolta Dati
I dati sono stati raccolti da diversi database pubblici, inclusi i Centri per il Controllo delle Malattie di Taiwan e altre fonti di notizie. Questi database fornivano aggiornamenti giornalieri sui casi di COVID-19, compresi i Casi Confermati, i sintomi e altri dettagli importanti sui contagiati.
I dati a livello individuale raccolti vanno dal 21 gennaio 2020 al 9 novembre 2020. Questo periodo copre la prima ondata di casi di COVID-19 a Taiwan. I dati erano originariamente presentati in un formato difficile da analizzare, quindi sono stati organizzati manualmente in un formato più strutturato. Questi dati includono dettagli cruciali sui casi di COVID-19 confermati, come la storia dei viaggi, la data dei sintomi e i tipi di contatto con le persone infette.
Il dataset conteneva 579 casi confermati con 64 caratteristiche diverse, come età, genere, sintomi e modi in cui è stato scoperto ciascun caso. I tipi di contatto sono stati classificati per includere familiari, amici e colleghi, tra gli altri. Alcuni casi avevano anche dettagli extra come ammissioni in terapia intensiva e date di guarigione.
Dati di Riepilogo Giornaliero
Insieme ai dati individuali, sono stati raccolti riepiloghi giornalieri dei casi. Questo riepilogo include informazioni più generali sulla popolazione, come il numero di casi sospetti e confermati in un dato giorno. Tuttavia, le incoerenze nella segnalazione sono state una sfida. Ad esempio, in una data specifica, i metodi di conteggio dei casi sono cambiati, il che ha reso più difficile fidarsi dei numeri.
Per contrastare queste incoerenze, sono stati esaminati ulteriori set di dati per garantire l'accuratezza. Questi riepiloghi hanno fornito una panoramica di come la pandemia si è evoluta nel tempo e includevano statistiche chiave relative al COVID-19, come morti e guarigioni.
Preprocessing dei Dati
Durante l'organizzazione dei dati, sono stati trovati alcuni casi insoliti che necessitavano di essere investigati. Ad esempio, c'è stato un caso in cui un paziente è stato diagnosticato erroneamente con polmonite prima di essere confermato come caso di COVID-19. Questa discrepanza ha richiesto di modificare la data di conferma registrata. Altri casi sono stati identificati come falsi positivi e sono stati rimossi dal dataset.
Registri Dati
Il dataset finale è disponibile per l'accesso pubblico. Include una vasta gamma di dettagli da 578 casi, coprendo dati epidemiologici e progresso della malattia. Una panoramica di questi dati rivela spunti su quanti casi provenivano da viaggi, la fascia d'età dei pazienti e i tipi di sintomi mostrati.
Descrizione dei Dati
Il dataset è ricco di informazioni. Classifica i casi in base all'origine, alla storia dei viaggi, all'età e al genere, fornendo spunti su chi è stato più colpito dal virus durante l'epidemia iniziale. I sintomi sperimentati dai pazienti sono ben documentati, insieme alle date di eventi significativi nella loro malattia, dai primi sintomi alla guarigione o alla morte.
Grafico di Kaplan-Meier
Un grafico di Kaplan-Meier può dimostrare come i pazienti transitano attraverso varie fasi della malattia nel tempo. Le fasi includono asintomatico, sintomatico, confermato, gravemente malato, guarito e deceduto. Questo tipo di grafico aiuta a visualizzare come i pazienti passano dall'essere infetti a guarire o non sopravvivere alla malattia.
Rete di Contatto
I dati creano anche una rete di contatto che illustra come le persone infette siano connesse tra loro. Questa rete aveva oltre 8.800 nodi, con circa 578 che rappresentano individui infetti. Le connessioni tra queste persone possono rivelare come il virus si diffonde in diversi circoli sociali, come all'interno delle famiglie o tra amici.
La rete rappresenta visivamente i percorsi di infezione, aiutando i ricercatori a vedere come un caso possa portare a un altro. Ogni tipo di contatto, come familiari o contatti legati ai viaggi, è codificato a colori per una comprensione più semplice.
Validazione Tecnica
Per garantire che i dati siano affidabili, è stato condotto un processo di validazione accurato. Questo ha incluso il confronto dei casi con varie fonti, come i rapporti del CDC. La verifica dei dati mirava a confermare che le informazioni di ciascun caso fossero accurate e coerenti con altri registri.
Confrontando i risultati con altri studi sul COVID-19, si è trovato che il dataset mantiene una buona coerenza con i dati riportati in precedenza. Questo passaggio aggiuntivo ha aiutato a garantire che i risultati ottenuti con questo dataset fossero affidabili.
Note sull'Uso
Questo dataset è il primo del suo genere per il COVID-19 a Taiwan, collegando dati individuali e a livello di popolazione. Presenta un'analisi completa dei casi di COVID-19, offrendo approfondimenti dettagliati su come la malattia ha colpito vari individui durante le fasi iniziali della pandemia.
Tuttavia, ci sono alcune limitazioni dovute alla dipendenza da informazioni disponibili pubblicamente. Ad esempio, per motivi di privacy, i dettagli sulle guarigioni e sui casi critici non sono sempre stati riportati completamente. Quindi, mentre il dataset offre dati estesi, ci sono ancora aree che potrebbero essere migliorate, in particolare per future pandemie.
Conclusione
In sintesi, è stato creato un dataset organizzato che copre il COVID-19 a Taiwan. Questo dataset include sia dati individuali che a livello di popolazione, sottolineando l'importanza delle informazioni dettagliate per comprendere la diffusione della malattia e gli esiti. Nonostante alcune limitazioni, questo dataset offre agli studiosi uno strumento prezioso per analizzare le dinamiche del COVID-19, che può portare a strategie migliori per gestire future crisi sanitarie. Gli sforzi futuri potrebbero concentrarsi sul miglioramento delle tecniche di raccolta e elaborazione dei dati per ottenere approfondimenti ancora più profondi.
Titolo: A structured course of disease dataset with contact tracing information in Taiwan for COVID-19 modelling
Estratto: BackgroundThe COVID-19 pandemic has flooded open databases with population-level data. However, individual-level structured data, such as the course of disease and contact tracing information, is almost non-existent in open databases. AimPublish a structured and cleaned COVID-19 dataset with the course of disease and contact tracing information for easy benchmarking of COVID-19 models. MethodsWe gathered data from Taiwanese open databases and daily news reports. The outcome is a structured quantitative dataset encompassing the course of the disease of Taiwanese individuals, alongside their contact tracing information. ResultsOur dataset comprises 579 confirmed cases covering the period from January 21, to November 9, 2020, when the original SARS-CoV-2 virus was most prevalent in Taiwan. The data include features such as travel history, age, gender, symptoms, contact types between cases, date of symptoms onset, confirmed, critically ill, recovered, and dead. We also include the daily summary data at population-level from January 21, 2020, to May 23, 2022. ConclusionsOur data can help enhance epidemiological modelling.
Autori: Torbjörn E. M. Nordling, Y.-H. Wu
Ultimo aggiornamento: 2024-02-29 00:00:00
Lingua: English
URL di origine: https://www.medrxiv.org/content/10.1101/2024.02.28.24303518
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.02.28.24303518.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia medrxiv per l'utilizzo della sua interoperabilità ad accesso aperto.