Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Dados Sintéticos Revolucionam a Previsão de Risco de COVID-19 para Veteranos

Dados sintéticos ajudam a prever os riscos da COVID-19 entre veteranos, garantindo a privacidade.

― 7 min ler


Modelos de Risco deModelos de Risco deCOVID-19 com InteligênciaArtificialsaúde usando dados sintéticos.Modelos inovadores prevêm riscos à
Índice

Desenvolvimentos recentes em Big Data e Inteligência Artificial (IA) permitiram que pesquisadores trabalhassem com dados médicos complexos, especialmente Prontuários Eletrônicos de Saúde (EHR). Porém, questões de privacidade dos pacientes e uso ético da IA tornaram difícil compartilhar esses dados amplamente. Pra contornar essas restrições, os cientistas começaram a usar Dados Sintéticos, que replicam algumas características dos dados reais sem revelar detalhes pessoais. Esse método não só facilita a divulgação das descobertas, mas também ajuda a reduzir o viés nas pesquisas.

A Plataforma precisionFDA

A FDA desenvolveu uma plataforma chamada precisionFDA pra apoiar avanços na medicina personalizada e informar a ciência regulatória. Essa plataforma é segura e baseada na nuvem, oferecendo computação sob demanda e armazenamento de dados. Também dá acesso a dados de referência e espaços pra colaboração. Desde que foi lançada em 2015, a precisionFDA atraiu mais de 6.000 membros, incluindo fabricantes, prestadores de saúde e pesquisadores. A plataforma incentiva a participação pública por meio de fóruns, blogs de especialistas e desafios comunitários.

O Desafio de Modelagem de Fatores de Risco da COVID-19

Conforme a pandemia de COVID-19 se desenrolou, cresceu um corpo de evidências sobre vários fatores de risco que poderiam levar a doenças graves, como idade, obesidade e condições de saúde existentes. Modelos preditivos usando dados de EHR podem ajudar a identificar pacientes com maior risco, permitindo um tratamento mais cedo e agressivo. Veteranos, em particular, enfrentam desafios de saúde únicos e podem precisar de modelos adaptados especificamente pra eles. Porém, usar dados sobre Veteranos levanta preocupações de privacidade. Pra lidar com essas questões, a FDA e a Administração de Saúde dos Veteranos (VHA) iniciaram o Desafio de Modelagem de Fatores de Risco da COVID-19 pra explorar como dados sintéticos poderiam ser úteis.

A primeira fase do desafio ocorreu em junho de 2020 e incentivou os participantes a usar Aprendizado de Máquina pra desenvolver modelos que prevessem resultados de saúde relacionados à doença COVID-19 em Veteranos. Usando dados sintéticos pra proteger identidades, os pesquisadores podiam analisar resultados de saúde sem as preocupações de segurança habituais. O desafio focou em cinco resultados principais: status de COVID-19, status de sobrevivência, necessidade de ventilação, duração da hospitalização e duração na UTI.

Metodologia

Pra o desafio, prontuários de saúde sintéticos foram criados pra 147.451 pacientes fictícios usando uma ferramenta chamada Synthea. Esses registros incluíam uma variedade de condições médicas, tratamentos e demografia dos pacientes. Os participantes receberam 80% desses dados pra treinar seus modelos, enquanto 20% foi guardado pra testes. A capacidade de cada modelo de prever os cinco resultados de saúde foi avaliada usando métricas padrão.

Como acompanhamento, uma segunda fase do desafio foi introduzida pra validar os melhores modelos da Fase 1 usando dois conjuntos de dados adicionais. Esses incluíam um segundo conjunto de dados sintéticos gerados por um software diferente e um conjunto de dados reais de prontuários de saúde de Veteranos. Os participantes adaptaram seus modelos pra se adequar a esses novos conjuntos de dados e foram avaliados com as mesmas métricas usadas na Fase 1.

Resultados da Fase 1

No total, 21 equipes submeteram 34 entradas de modelos na Fase 1. Os participantes usaram várias técnicas de aprendizado de máquina, com muitos utilizando modelos avançados, incluindo Máquinas de Gradient Boosting e Florestas Aleatórias. Os resultados mostraram que os modelos que previam resultados graves, como status de sobrevivência, tinham um desempenho melhor do que aqueles que previam resultados menos graves. Por exemplo, modelos que previam se um paciente precisaria de um ventilador eram mais precisos comparados aos que previam o status de COVID-19.

O desempenho de diferentes modelos variou, mas entre as melhores entradas, os modelos usando Máquinas de Gradient Boosted geralmente alcançaram os melhores resultados. Os resultados da primeira fase indicaram que era mais fácil prever resultados de saúde graves em comparação com os leves, provavelmente devido a características distintas associadas a condições severas.

Resultados da Fase 2

A Fase 2 do desafio focou em validar os modelos com melhor desempenho da Fase 1. Os resultados mostraram que esses modelos continuaram a superar a sorte ao prever resultados de saúde. Os modelos foram validados em três conjuntos de dados, com os dados da Synthea gerando os melhores resultados em termos de precisão. Tanto os registros de saúde sintéticos quanto os reais mostraram que os modelos podiam prever resultados de saúde de forma confiável.

Em todos os conjuntos de dados, os modelos treinados com dados sintéticos geralmente tiveram desempenho semelhante aos treinados com dados reais. Importante, os melhores identificaram vários fatores de risco associados à COVID-19. Esses fatores incluíam condições de saúde comuns relacionadas à maior gravidade, como problemas respiratórios ou cardiovasculares.

Identificando Fatores de Risco

Durante o desafio, os modelos também se destacaram na identificação de fatores de risco que poderiam prever resultados de saúde. Os participantes identificaram condições pré-existentes, medicamentos e detalhes demográficos como fatores importantes. Apesar de algumas diferenças entre os conjuntos de dados, cada modelo destacou pelo menos um fator de risco que também foi reconhecido nos registros de saúde reais dos Veteranos.

A capacidade desses modelos de identificar fatores de risco cruciais sugere que dados sintéticos podem ser uma ferramenta útil pra entender riscos à saúde, especialmente em crises de saúde urgentes como uma pandemia.

Limitações e Direções Futuras

Embora os resultados sejam promissores, houve limitações no estudo. Uma preocupação era que os modelos treinados com dados sintéticos mostravam métricas de desempenho inflacionadas em comparação com aqueles treinados com dados reais. Isso pode indicar que trabalhar com dados reais é intrinsecamente mais desafiador devido à sua complexidade e variabilidade.

Apesar do desafio ter fornecido insights valiosos sobre o potencial dos dados sintéticos, mais pesquisas são necessárias pra comparar diretamente dados sintéticos com dados reais em cenários práticos. Além disso, a variedade de técnicas de aprendizado de máquina usadas foi limitada, o que pode não fornecer uma visão completa de como diferentes algoritmos se saem com esses dados.

Conclusão

O Desafio de Modelagem de Fatores de Risco da COVID-19 mostrou como aprendizado de máquina e dados sintéticos podem trabalhar juntos pra abordar problemas de saúde pública. Criando uma plataforma pras pesquisas desenvolverem e compartilharem modelos, o desafio ofereceu insights sobre os riscos associados à COVID-19 entre Veteranos.

A necessidade de dados acessíveis é essencial, especialmente durante uma crise de saúde, e dados sintéticos podem preencher essa lacuna quando as preocupações de privacidade são altas. Seguindo em frente, melhorar os métodos de geração de dados sintéticos e expandir a variedade de algoritmos de aprendizado de máquina utilizados será importante pra futuras pesquisas nesse campo.

No geral, o desafio destacou os benefícios potenciais de usar dados sintéticos na pesquisa médica, que podem ajudar a informar melhores decisões de saúde e melhorar os resultados dos pacientes.

Fonte original

Título: Synthetic Health Data Can Augment Community Research Efforts to Better Inform the Public During Emerging Pandemics

Resumo: The COVID-19 pandemic had disproportionate effects on the Veteran population due to the increased prevalence of medical and environmental risk factors. Synthetic electronic health record (EHR) data can help meet the acute need for Veteran population-specific predictive modeling efforts by avoiding the strict barriers to access, currently present within Veteran Health Administration (VHA) datasets. The U.S. Food and Drug Administration (FDA) and the VHA launched the precisionFDA COVID-19 Risk Factor Modeling Challenge to develop COVID-19 diagnostic and prognostic models; identify Veteran population-specific risk factors; and test the usefulness of synthetic data as a substitute for real data. The use of synthetic data boosted challenge participation by providing a dataset that was accessible to all competitors. Models trained on synthetic data showed similar but systematically inflated model performance metrics to those trained on real data. The important risk factors identified in the synthetic data largely overlapped with those identified from the real data, and both sets of risk factors were validated in the literature. Tradeoffs exist between synthetic data generation approaches based on whether a real EHR dataset is required as input. Synthetic data generated directly from real EHR input will more closely align with the characteristics of the relevant cohort. This work shows that synthetic EHR data will have practical value to the Veterans health research community for the foreseeable future.

Autores: Amanda Lienau, A. Prasanna, B. Jing, G. Plopper, K. Krasnov Miller, J. Sanjak, A. Feng, S. Prezek, E. Vidyaprakash, V. Thovarai, E. Maier, A. Bhattacharya, L. Naaman, H. Stephens, S. Watford, W. J. Boscardin, E. Johanson

Última atualização: 2023-12-13 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.12.11.23298687

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.12.11.23298687.full.pdf

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes