Aprovechando Datos Sintéticos para Jóvenes Pacientes con Cáncer
Los datos sintéticos prometen mejorar la investigación en pacientes adolescentes con cáncer.
― 7 minilectura
Tabla de contenidos
- Datos sintéticos como Solución
- El Papel de los Datos Reales en la Creación de Datos Sintéticos
- ¿Qué Hace Útiles a los Datos Sintéticos?
- Probando Datos Sintéticos para Pacientes Jóvenes con Cáncer
- El Estudio que Usamos
- Configurando los Experimentos
- Cómo Medimos la Calidad de los Datos Sintéticos
- Midiendo Veracidad
- Midiendo Utilidad
- Midiendo Privacidad
- Resultados y Hallazgos
- Cobertura y Densidad
- Análisis de Utilidad
- Preocupaciones de Privacidad
- Implicaciones de Nuestros Hallazgos
- Fuente original
Recopilar datos de salud para enfermedades raras, como el cáncer en adolescentes y jóvenes adultos (AYAs), puede ser complicado. No hay muchos conjuntos de datos de alta calidad disponibles para este grupo. Esta falta de datos accesibles dificulta a los investigadores desarrollar estándares de atención adecuados para los pacientes jóvenes con cáncer.
A veces, compartir datos se bloquea por reglas y problemas de Privacidad. Pero este es el grupo que realmente podría beneficiarse de un mejor acceso a más datos.
Datos sintéticos como Solución
Una idea para ayudar con este problema es el uso de datos sintéticos (SD). Los datos sintéticos se crean para parecerse a información de salud real, pero no incluyen detalles que puedan identificar a las personas reales. Este tipo de datos puede ayudar a los investigadores sin arriesgar que se exponga información personal.
A medida que seguimos buscando mejores maneras de utilizar datos sintéticos en la salud, los expertos están tratando de averiguar cómo usarlos correctamente. Los investigadores tienen acceso a muchas herramientas que pueden ayudarles a crear datos sintéticos para diversas necesidades.
Datos Reales en la Creación de Datos Sintéticos
El Papel de losPara crear datos sintéticos, los investigadores primero necesitan algunos datos reales para entrenar sus sistemas. Una vez que el sistema está entrenado, puede producir grandes cantidades de datos sintéticos. La cantidad de datos reales utilizados para el entrenamiento es importante y puede afectar cuán útiles son los datos sintéticos.
Entender cómo el tamaño de los datos de entrenamiento impacta en los datos sintéticos es algo que necesita más atención.
¿Qué Hace Útiles a los Datos Sintéticos?
Hay tres aspectos críticos que pensamos que hacen que los datos sintéticos sean realmente útiles:
Veracidad: Los datos sintéticos deben coincidir con los datos reales en cuanto a cómo se distribuye la información.
Utilidad: Los datos sintéticos deben mostrar las mismas relaciones entre diferentes piezas de información que el conjunto de datos real.
Privacidad: Los datos sintéticos deben ocultar las identidades de las personas y mantener a salvo los detalles personales.
Probando Datos Sintéticos para Pacientes Jóvenes con Cáncer
Para ver cómo estos tres aspectos dependen de cuántos datos están disponibles, realizamos varios experimentos utilizando información real de pacientes de cáncer AYA. Este grupo es difícil de estudiar porque hay solo alrededor de un millón de nuevos casos a nivel mundial cada año.
Los adolescentes y jóvenes adultos enfrentan el cáncer de manera diferente a los niños y adultos mayores, y a menudo son tratados en hospitales de niños o adultos. No hay suficientes evidencias para guiar la atención personalizada según la edad de estos pacientes, por lo que queremos aprender cómo los datos sintéticos podrían ayudar en la investigación sobre su salud.
El Estudio que Usamos
Usamos datos de un estudio llamado SURVAYA, que examinó pacientes de cáncer AYA registrados en los Países Bajos. Este estudio incluía datos de pacientes tratados en hospitales específicos entre 1999 y 2015. Las herramientas clave utilizadas en este estudio fueron cuestionarios relacionados con la calidad de vida vinculados a información clínica.
Para nuestros experimentos, nos centramos solo en variables relacionadas con problemas de imagen corporal entre AYAs. Los pacientes que no terminaron sus cuestionarios no fueron incluidos. Rellenamos las respuestas faltantes utilizando un método específico de imputación de datos. El conjunto de datos reales que limpiamos tenía detalles de más de 3,700 AYAs, con 21 variables relevantes.
Configurando los Experimentos
Creamos conjuntos de datos de entrenamiento más pequeños seleccionando aleatoriamente del conjunto de datos limpio, bajando a grupos más pequeños. Esto nos permitió crear diferentes tamaños de entrenamiento para nuestros experimentos.
Probamos cuatro tipos diferentes de generadores de datos sintéticos. Dos se basaron en modelos estadísticos tradicionales, y los otros dos usaron aprendizaje profundo. Cada generador fue entrenado usando los diferentes tamaños de nuestros conjuntos de datos de entrenamiento.
Para cada generador, producimos conjuntos de datos sintéticos con diferentes tamaños de muestra que iban de 100 a 39,100, lo que nos permitió comparar resultados de manera efectiva.
Cómo Medimos la Calidad de los Datos Sintéticos
Evaluamos cuán útiles fueron los datos sintéticos comparándolos con el conjunto de datos original. Esto implicó revisar medidas de veracidad, utilidad y privacidad.
Midiendo Veracidad
Para verificar qué tan cerca estaba el dato sintético de los datos reales, calculamos puntuaciones basadas en varios factores. Estos incluían cuántos sujetos sintéticos estaban cerca de los sujetos reales en el conjunto de datos original y cuán densamente se agrupaban.
Midiendo Utilidad
Vimos si los datos sintéticos producían las mismas relaciones entre diferentes piezas de información que los datos originales. Esto implicó revisar los resultados de modelos de regresión logística que examinaban problemas de imagen corporal.
Midiendo Privacidad
En cuanto a la privacidad, verificamos si algún sujeto sintético podía coincidir perfectamente con sujetos reales en el conjunto de datos original. También analizamos cuán probable era que alguien pudiera adivinar información sensible sobre los pacientes AYA solo mirando los datos sintéticos.
Resultados y Hallazgos
Durante nuestros experimentos, encontramos que el tamaño de los datos de entrenamiento afectaba la calidad de los datos sintéticos de varias maneras. Por ejemplo, descubrimos que la precisión de los datos sintéticos mejoraba cuando había más muestras, pero demasiadas muestras también podían generar preocupaciones de privacidad.
Cobertura y Densidad
En términos de cobertura, encontramos que los datos sintéticos generalmente eran lo suficientemente buenos como para cubrir el conjunto de datos original cuando se creaba un número suficiente de sujetos sintéticos. Sin embargo, un tipo de generador produjo resultados más bajos en general en comparación con otros, particularmente al trabajar con conjuntos de entrenamiento más pequeños.
Análisis de Utilidad
Cuando analizamos la utilidad, encontramos que los datos sintéticos no siempre coincidían perfectamente con los datos originales. Algunos hallazgos del conjunto de datos original se volvieron estadísticamente significativos al usar datos sintéticos, mientras que otros cambiaron o perdieron relevancia. Esto significa que, si bien los datos sintéticos pueden parecerse a los datos reales, puede que no los representen con precisión.
Preocupaciones de Privacidad
A medida que generábamos más sujetos sintéticos, el riesgo de revelar información personal aumentaba. Algunos generadores desempeñaron mejor en mantener las identidades seguras que otros. Un generador, en particular, logró mantener la privacidad a lo largo de varias pruebas, sin mostrar superposición con individuos reales en los conjuntos de datos sintéticos.
Implicaciones de Nuestros Hallazgos
Nuestro trabajo destaca lo importante que es encontrar el equilibrio correcto en los tamaños de muestra al crear datos sintéticos. Este equilibrio es crucial para garantizar que los datos sintéticos sigan siendo útiles mientras también protegen la privacidad individual.
Es esencial que los investigadores que crean conjuntos de datos sintéticos consideren cuidadosamente el propósito de sus datos. El enfoque correcto puede ayudarles a evitar posibles trampas mientras maximizan los beneficios de los datos sintéticos.
En resumen, nuestros experimentos mostraron que los datos sintéticos pueden ser una herramienta valiosa en la investigación de salud para jóvenes pacientes con cáncer. Con una atención cuidadosa a los tamaños de muestra y los riesgos potenciales de privacidad, los datos sintéticos podrían mejorar significativamente la investigación sobre enfermedades raras.
Título: Actionability of Synthetic Data in a Heterogeneous and Rare Healthcare Demographic; Adolescents and Young Adults (AYAs) with Cancer
Resumen: PurposeResearch on rare diseases and atypical healthcare demographics is often slowed by high inter-subject heterogeneity and overall scarcity of data. Synthetic data (SD) has been proposed as means for data sharing, enlargement, and diversification, by artificially generating real phenomena while obscuring the real subject data. The utility of SD is actively scrutinised in healthcare research, but the role of sample size for actionability of SD is insufficiently explored. We aim to understand the interplay of actionability and sample size by generating SD sets of varying sizes from gradually diminishing amounts of real subjects data. We evaluate the actionability of SD in a highly heterogeneous and rare demographic: adolescents and young adults (AYAs) with cancer. MethodologyA population-based cross-sectional cohort study of 3735 AYAs was sub-sampled at random to produce 13 training datasets of varying sample sizes. We studied four distinct generator architectures built on the open-source Synthetic Data Vault library. Each architecture was used to generate SD of varying sizes based on each aforementioned training subsets. SD actionability was assessed by comparing the resulting SD to its respective real data against three metrics - veracity, utility, and privacy concealment. ResultsAll examined generator architectures yielded actionable data when generating SD with sizes similar to the real data. Large SD sample size increased veracity but generally increased privacy risks. Using fewer training subjects led to faster convergence in veracity, but partially exacerbated privacy concealment issues. ConclusionSD is a potentially promising option for data sharing and data augmentation, yet sample size plays a significant role in its actionability. SD generation should go hand-in-hand with consistent scrutiny and sample size should be carefully considered in this process.
Autores: Joshi Hogenboom, A. Lobo Gomes, A. L. A. J. Dekker, W. T. A. Van Der Graaf, O. Husson, L. Y. L. Wee
Última actualización: 2024-03-06 00:00:00
Idioma: English
Fuente URL: https://www.medrxiv.org/content/10.1101/2024.03.04.24303526
Fuente PDF: https://www.medrxiv.org/content/10.1101/2024.03.04.24303526.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.