Sesgo en Modelos de Aprendizaje Automático para la Salud
Examinando las diferencias de rendimiento en aprendizaje automático para imágenes de retina y detección de hipertensión.
― 7 minilectura
Tabla de contenidos
Estudios recientes han demostrado que los modelos de Aprendizaje automático en el ámbito de la salud pueden funcionar de manera desigual para diferentes grupos de personas. En este artículo, nos enfocamos en un caso específico que involucra imágenes de la retina del UK Biobank. Entrenamos un modelo para clasificar si las personas tienen Hipertensión basándonos en estas imágenes. Nuestro objetivo era ver si hay diferencias en el rendimiento del modelo para diversos grupos de personas e identificar las razones detrás de estas diferencias.
Sesgos en el Aprendizaje Automático
El aprendizaje automático se está volviendo común en la atención médica, pero hay preocupaciones sobre que estos sistemas no funcionen de manera justa para todos. Por ejemplo, algunos modelos pueden tener buen rendimiento en la población general pero malos resultados para grupos específicos basados en factores como la raza, la edad o el estatus socioeconómico. Esto puede tener efectos perjudiciales para aquellos que no están bien representados por el modelo. Además, limita la capacidad de aplicar estos modelos en diferentes poblaciones de pacientes.
Para abordar este problema, los investigadores han desarrollado formas de mitigar sesgos en varias etapas del proceso de aprendizaje automático. Pueden hacer cambios durante la recolección de datos, el preprocesamiento, el Entrenamiento del modelo o después de que el modelo ha sido entrenado. Hay varios métodos disponibles, como mejorar el rendimiento del grupo más débil o buscar predicciones más balanceadas entre diferentes grupos. Sin embargo, estudios han demostrado que muchos de estos métodos no resuelven el problema de manera efectiva.
Enfoque de Nuestro Estudio
En nuestro estudio, nos concentramos en los sesgos en modelos que clasifican imágenes de retina para hipertensión. Aunque algunas investigaciones han tocado esta área, sigue siendo limitada. Nos basamos en trabajos anteriores y realizamos una investigación integral usando datos del UK Biobank, que contiene información de salud de más de medio millón de adultos en el Reino Unido. Nuestro conjunto de datos incluye más de 80,000 imágenes de retina para entrenar nuestro modelo.
El UK Biobank tiene protocolos estrictos para la calidad de los datos, lo que significa que todas las imágenes se tomaron con el mismo equipo. Esto nos permitió enfocarnos en identificar otros tipos de sesgos que pueden existir, especialmente dado que la base de datos es tan extensa.
Entrenamiento del Modelo e Identificación de Sesgos
Dividimos nuestro conjunto de datos en conjuntos de entrenamiento, validación y prueba. El modelo que usamos se llama InceptionV3, que funciona bien para tareas de clasificación de imágenes. Luego, examinamos qué tan bien el modelo identificaba la hipertensión basándose en las imágenes de retina. Aunque el rendimiento general parecía fuerte, notamos diferencias significativas al observar más de cerca varios subgrupos.
Por ejemplo, la capacidad del modelo para predecir hipertensión variaba notablemente entre diferentes grupos de edad y entre diferentes centros de evaluación. En algunos casos, el rendimiento del modelo difería en más del 15% dependiendo de la edad de los individuos o del centro donde se tomaron las imágenes. Algunos grupos tenían una tasa mucho más baja de predicciones precisas, lo que podía resultar en situaciones donde los individuos son mal diagnosticados.
Investigación de las Causas de Sesgo
Comenzamos a buscar razones por las que existían estas disparidades en el rendimiento. Un factor que exploramos fueron las características de los grupos, como su edad o sexo. Incluso después de ajustar por estos factores, encontramos que algunos centros aún tenían un rendimiento mucho más bajo que otros. Además, analizamos la calidad de las imágenes y descubrimos que no explicaba las diferencias.
Otro aspecto que examinamos fue el balance de datos dentro de los grupos. Mientras que algunas disparidades podrían derivarse de una representación desigual de ciertos grupos en nuestro conjunto de datos, encontramos que esta no era siempre la situación. Por ejemplo, los centros de evaluación tenían una distribución uniforme de imágenes, sin embargo, un centro consistentemente tenía un peor rendimiento que los demás.
También consideramos qué tan bien el modelo se generalizaba a nuevos datos. A pesar de tener un buen rendimiento en los datos de entrenamiento, la precisión del modelo disminuyó cuando se probó con datos no vistos, y este problema fue particularmente evidente para ciertos centros. Las disparidades no eran tan marcadas para la edad y el sexo cuando se veían de manera aislada.
Por último, analizamos cómo el modelo representaba diferentes características dentro de las imágenes. Al estudiar las características internas del modelo, pudimos ver una separación entre imágenes con y sin hipertensión, así como diferencias relacionadas con grupos de edad. Sin embargo, también identificamos un patrón inusual de un centro, sugiriendo que había sesgos presentes que requerían más investigación.
Métodos de Mitigación de Sesgos
El siguiente paso fue probar varios métodos de mitigación de sesgos para ver si podían ayudar a equilibrar el rendimiento del modelo entre diferentes grupos. Utilizamos una variedad de técnicas que habían mostrado promesa en otros estudios.
Un enfoque incluyó re-muestrear imágenes de grupos subrepresentados para asegurar un conjunto de datos más equilibrado. Otros métodos incluyeron ajustar cómo se entrenaba el modelo para enfocarse en los grupos de peor rendimiento y aplicar técnicas de post-procesamiento para refinar las predicciones después de que el modelo fue entrenado.
Cada método fue probado y buscamos ver si alguno podía reducir efectivamente las disparidades mientras mantenía el rendimiento general del modelo. Desafortunadamente, la mayoría de estos métodos no lograron mejorar la equidad. Muchos resultaron en una caída del rendimiento general o no cambiaron significativamente las disparidades que observamos.
Resultados
El modelo base que entrenamos logró buenos resultados generales, pero cuando vimos grupos específicos, encontramos brechas de rendimiento significativas. Por ejemplo, la precisión del modelo varió ampliamente dependiendo de la edad y el centro de evaluación.
En nuestra evaluación de métodos de mitigación de sesgos, encontramos que solo un método fue algo efectivo en mejorar las discrepancias relacionadas con la edad mientras mantenía el rendimiento general. Sin embargo, la efectividad fue limitada y no se tradujo en beneficios tangibles para otras disparidades, especialmente aquellas relacionadas con los centros de evaluación.
A pesar de probar varias estrategias, ningún método mejoró consistentemente los resultados para los grupos con peor rendimiento. Esto destaca un desafío crítico en el uso de aprendizaje automático en la atención médica, donde los métodos existentes a menudo no logran eliminar sesgos mientras preservan la precisión.
Conclusión
Nuestro estudio reveló que los modelos de aprendizaje automático para la clasificación de imágenes de retina pueden tener disparidades de rendimiento sustanciales para diferentes grupos. Si bien el rendimiento general puede parecer suficiente, los resultados desiguales para subgrupos específicos generan preocupaciones, especialmente en lo que respecta a la equidad en las aplicaciones de salud.
Los métodos actuales de mitigación de sesgos no equilibraron efectivamente el rendimiento entre grupos. Esto señala la necesidad de investigar más y desarrollar nuevas estrategias que puedan abordar específicamente los desafíos únicos que presentan las poblaciones diversas. A medida que el aprendizaje automático continúa creciendo en la atención médica, asegurar resultados equitativos y confiables debe ser una prioridad.
El trabajo futuro debería investigar cómo la mitigación de sesgos puede aplicarse en diferentes tareas y modalidades, así como profundizar en el conjunto de datos del UK Biobank para entender mejor los factores que contribuyen a estas disparidades. Abordar estos problemas es crucial para apoyar soluciones de atención médica justas y efectivas.
Título: On Biases in a UK Biobank-based Retinal Image Classification Model
Resumen: Recent work has uncovered alarming disparities in the performance of machine learning models in healthcare. In this study, we explore whether such disparities are present in the UK Biobank fundus retinal images by training and evaluating a disease classification model on these images. We assess possible disparities across various population groups and find substantial differences despite strong overall performance of the model. In particular, we discover unfair performance for certain assessment centres, which is surprising given the rigorous data standardisation protocol. We compare how these differences emerge and apply a range of existing bias mitigation methods to each one. A key insight is that each disparity has unique properties and responds differently to the mitigation methods. We also find that these methods are largely unable to enhance fairness, highlighting the need for better bias mitigation methods tailored to the specific type of bias.
Autores: Anissa Alloula, Rima Mustafa, Daniel R McGowan, Bartłomiej W. Papież
Última actualización: 2024-10-25 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.02676
Fuente PDF: https://arxiv.org/pdf/2408.02676
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.