Abordando el sesgo en los algoritmos de imágenes médicas
El estudio revela disparidades en los modelos de UAD que afectan la equidad en la atención médica.
― 5 minilectura
Tabla de contenidos
A medida que la imagen médica se vuelve más común, hay una necesidad creciente de algoritmos que ayuden a los doctores a analizar estos datos. Un enfoque llamado detección de anomalías no supervisada (UAD) busca detectar enfermedades encontrando patrones inusuales en las imágenes médicas. A diferencia de los modelos supervisados, que requieren datos etiquetados, los modelos UAD aprenden de los datos sin necesitar etiquetas específicas para las enfermedades.
Este estudio explora cómo los modelos UAD se desempeñan de manera diferente según la composición del conjunto de datos, prestando especial atención a diferentes grupos Demográficos. Se busca entender si ciertos grupos están constantemente en desventaja debido a cómo los modelos UAD aprenden de los datos de entrenamiento.
Importancia de la Justicia en UAD
Estudios anteriores se han centrado principalmente en la justicia en modelos supervisados, que buscan relaciones directas entre los datos de entrada y los resultados. Esta investigación es de las primeras en analizar la justicia específicamente en modelos UAD. Es crucial entender estas disparidades porque pueden llevar a resultados de atención médica desiguales. Si un modelo funciona mejor para un grupo que para otro, esto podría resultar en diagnósticos erróneos o retrasos en el tratamiento para algunos pacientes.
Conjunto de datos y Metodología
Para estudiar la justicia en los modelos UAD, los investigadores utilizaron tres conjuntos de datos principales de radiografías de tórax: MIMIC-CXR, CXR14 y CheXpert. Estos conjuntos contienen miles de radiografías de tórax junto con información demográfica como edad, género y raza. El objetivo era ver cómo la representación de diferentes grupos demográficos en los datos de entrenamiento afectaba el rendimiento de los modelos UAD.
Los conjuntos de datos fueron cuidadosamente construidos para eliminar cualquier influencia de dispositivos o etiquetas inciertas. Los conjuntos de entrenamiento variaron en las proporciones de diferentes grupos demográficos para ver cómo estas diferencias impactaban el rendimiento del modelo.
Hallazgos sobre el Sesgo de Rendimiento
El estudio encontró que los modelos UAD mostraron una relación lineal entre la representación de un grupo demográfico en los datos de entrenamiento y el rendimiento del modelo para ese grupo. Esto significa que si un grupo está subrepresentado en los datos de entrenamiento, el modelo tiende a tener un mal Desempeño para ese grupo.
Curiosamente, incluso cuando los datos de entrenamiento incluían representación equitativa-significando que ambos géneros, edades o razas estaban igualmente representados-el modelo aún mostraba sesgo. Por ejemplo, los hombres a menudo recibían puntuaciones de rendimiento más altas que las mujeres, incluso cuando ambas estaban bien representadas en los datos.
Desigualdades Interseccionales
La investigación también analizó la interseccionalidad, que considera cómo diferentes características demográficas se combinan para afectar el rendimiento. Por ejemplo, al analizar hombres mayores en comparación con mujeres mayores, el sesgo se volvió más pronunciado. El estudio reveló que las personas que pertenecen a múltiples grupos desfavorecidos enfrentaban disparidades de rendimiento aún mayores.
La Necesidad de una Nueva Métrica
Para entender mejor estas diferencias de rendimiento, el estudio introdujo una nueva métrica llamada subgroup-AUROC (sAUROC). Esta métrica permite una evaluación más matizada de qué tan bien se desempeña un modelo en diferentes grupos demográficos sin depender en exceso de métodos tradicionales que podrían oscurecer estas disparidades.
Consecuencias del Sesgo
Los hallazgos sugieren que el sesgo en los modelos UAD podría tener serias implicaciones para la atención al paciente. Para grupos subrepresentados, altas tasas de falsos positivos podrían llevar a pruebas de seguimiento innecesarias o tratamientos inapropiados. Con el tiempo, estos Sesgos repetidos podrían crear desconfianza en los sistemas de salud, afectando cómo los pacientes interactúan con la tecnología médica.
Limitaciones de los Enfoques Actuales
Aunque los modelos UAD no requieren datos etiquetados para cada condición, todavía hay riesgos. Si los conjuntos de datos de entrenamiento carecen de diversidad, los modelos resultantes pueden tener brechas de rendimiento. Además, la forma en que se categorizan las demografías en los conjuntos de datos puede introducir sesgo. Por ejemplo, las etiquetas pueden no capturar toda la complejidad de la raza o género, llevando a análisis simplificados.
Conclusión y Trabajo Futuro
Esta investigación arroja luz sobre las disparidades de rendimiento en los modelos UAD y destaca la necesidad de una representación equitativa en los conjuntos de datos de entrenamiento. El trabajo futuro debería continuar enfocándose en refinar métricas como sAUROC para medir la justicia y trabajar activamente para ajustar los modelos y mitigar el sesgo. Asegurar que los modelos UAD sean justos y efectivos es esencial para construir confianza en la tecnología médica y mejorar los resultados de atención médica para todos los pacientes.
A medida que las tecnologías de salud continúan evolucionando, entender y abordar estos sesgos será crucial para su exitosa integración en las prácticas clínicas.
Título: (Predictable) Performance Bias in Unsupervised Anomaly Detection
Resumen: Background: With the ever-increasing amount of medical imaging data, the demand for algorithms to assist clinicians has amplified. Unsupervised anomaly detection (UAD) models promise to aid in the crucial first step of disease detection. While previous studies have thoroughly explored fairness in supervised models in healthcare, for UAD, this has so far been unexplored. Methods: In this study, we evaluated how dataset composition regarding subgroups manifests in disparate performance of UAD models along multiple protected variables on three large-scale publicly available chest X-ray datasets. Our experiments were validated using two state-of-the-art UAD models for medical images. Finally, we introduced a novel subgroup-AUROC (sAUROC) metric, which aids in quantifying fairness in machine learning. Findings: Our experiments revealed empirical "fairness laws" (similar to "scaling laws" for Transformers) for training-dataset composition: Linear relationships between anomaly detection performance within a subpopulation and its representation in the training data. Our study further revealed performance disparities, even in the case of balanced training data, and compound effects that exacerbate the drop in performance for subjects associated with multiple adversely affected groups. Interpretation: Our study quantified the disparate performance of UAD models against certain demographic subgroups. Importantly, we showed that this unfairness cannot be mitigated by balanced representation alone. Instead, the representation of some subgroups seems harder to learn by UAD models than that of others. The empirical fairness laws discovered in our study make disparate performance in UAD models easier to estimate and aid in determining the most desirable dataset composition.
Autores: Felix Meissen, Svenja Breuer, Moritz Knolle, Alena Buyx, Ruth Müller, Georgios Kaissis, Benedikt Wiestler, Daniel Rückert
Última actualización: 2023-09-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.14198
Fuente PDF: https://arxiv.org/pdf/2309.14198
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://nihcc.app.box.com/v/ChestXray-NIHCC/folder/36938765345
- https://stanfordmlgroup.github.io/competitions/chexpert/
- https://physionet.org/content/mimic-cxr-jpg/2.0.0/
- https://physionet.org/content/mimiciv/2.2/
- https://github.com/FeliMe/unsupervised_fairness
- https://mimic.mit.edu/docs/iv/modules/hosp/patients/
- https://mit-serc.pubpub.org/pub/algorithmic-chest/release/2