Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Estadística# Aprendizaje automático# Visión por Computador y Reconocimiento de Patrones# Metodología# Aprendizaje automático

Evaluando la IA en la Salud: Abordando la Incertidumbre

Este artículo examina cómo evaluar modelos de IA en el cuidado de la salud considerando la incertidumbre en el diagnóstico.

― 8 minilectura


Evaluación de IA en laEvaluación de IA en lasaludde IA para evaluaciones médicas.Abordando la incertidumbre en modelos
Tabla de contenidos

Los sistemas de IA en la salud, especialmente los que se usan para diagnósticos, necesitan ser probados con cuidado antes de usarse. Estas pruebas a menudo comparan las predicciones de la IA con una verdad conocida, que se asume como correcta y constante. Sin embargo, esto no siempre es así, especialmente en el ámbito de la salud, donde la situación real puede no estar clara. Ignorar esta incertidumbre puede hacer que la IA no funcione bien en situaciones reales.

En este artículo, vamos a discutir cómo evaluar los modelos de IA en la salud teniendo en cuenta la incertidumbre en lo que se conoce como la "Verdad Fundamental". La verdad fundamental se refiere a la condición real que necesita ser identificada, pero en la salud, esta condición puede no estar siempre claramente definida. La incertidumbre puede venir de dos fuentes principales:

  1. Incertidumbre de anotación: Surge de la dificultad para etiquetar los datos de manera precisa. Incluso los profesionales capacitados pueden cometer errores y sus opiniones pueden diferir.

  2. Incertidumbre inherente: Se relaciona con los límites de la información disponible. Por ejemplo, un diagnóstico basado en una sola imagen puede no proporcionar suficiente detalle para una conclusión clara.

En las evaluaciones estándar, la mayoría de las técnicas simplemente usan una sola etiqueta derivada de múltiples anotaciones, como la votación mayoritaria. Este método a menudo pasa por alto la incertidumbre y los desacuerdos entre los anotadores. Sin embargo, nuestro método propuesto usa un modelo estadístico para representar un rango de posibles verdades, en lugar de depender de una sola etiqueta.

La Importancia de la Incertidumbre en la Verdad Fundamental

En la mayoría de los sistemas de IA, especialmente en la salud, se asume que cada instancia tiene una verdad fundamental única y clara. Sin embargo, muchas veces, múltiples expertos dan diferentes opiniones sobre cuál debería ser la etiqueta correcta. Este desacuerdo es común en los diagnósticos médicos, donde los clínicos se ven obligados a tomar decisiones con información limitada.

Por ejemplo, si varios doctores analizan una condición de la piel, pueden proponer diferentes diagnósticos basados en su experiencia. La dificultad para llegar a un acuerdo unánime refleja la incertidumbre inherente involucrada en el diagnóstico de condiciones médicas. Al evaluar un sistema de IA basado en una verdad fundamental tan incierta, es crucial reconocer el desacuerdo y la incertidumbre que existe entre los anotadores humanos.

Al reconocer esta incertidumbre, podemos evitar los peligros de sobreestimar el rendimiento de los sistemas de IA, lo que puede llevar a resultados peligrosos en la salud.

Medición de la Incertidumbre de Anotación e Inherente

Entender las fuentes de incertidumbre es vital para mejorar la evaluación de los sistemas de IA. Como se mencionó anteriormente, esta incertidumbre se puede desglosar en dos categorías principales: incertidumbre de anotación y incertidumbre inherente.

Incertidumbre de Anotación

Este tipo de incertidumbre proviene de la forma en que se etiquetan y anotan los datos. Los anotadores humanos pueden cometer errores, tener sesgos, carecer de experiencia o verse afectados por la ambigüedad en la tarea. Esto significa que incluso los médicos bien entrenados pueden estar en desacuerdo sobre qué etiqueta asignar a una condición de la piel.

En la salud, los expertos a menudo proporcionan una lista de posibles condiciones en lugar de un solo diagnóstico. Esta forma de ranking parcial puede generar más desacuerdos sobre la verdad fundamental, haciendo importante entender cuán confiables son estas anotaciones.

Incertidumbre Inherente

La incertidumbre inherente se refiere a situaciones donde la condición verdadera no puede ser fácilmente identificada debido a la información limitada. Por ejemplo, al evaluar una condición de la piel solo en base a una fotografía, los detalles pueden ser insuficientes para llegar a una conclusión definitiva.

En muchos casos, la incertidumbre se puede evaluar midiendo el nivel de desacuerdo entre varios anotadores. Cuanto más desacuerdo haya, mayor será la incertidumbre.

Marco Propuesto para la Evaluación

Para evaluar mejor los sistemas de IA bajo estas condiciones de incertidumbre, es necesario un nuevo marco. En lugar de usar métodos deterministas que ignoran el desacuerdo entre anotadores, proponemos un enfoque estadístico que incorpore la incertidumbre directamente en el proceso de evaluación.

Agregación Estadística de Anotaciones

Este enfoque modela la agregación de diferentes anotaciones estadísticamente. Al tratar las etiquetas proporcionadas por varios anotadores como muestras de una distribución, podemos crear una comprensión más robusta de la verdad fundamental.

El proceso de agregación implica usar Modelos estadísticos que permiten muestrear etiquetas plausibles en función de las opiniones de diferentes anotadores. Este muestreo estadístico puede proporcionar una mejor representación de la incertidumbre en comparación con las técnicas tradicionales de votación mayoritaria o promedios.

Usando este método, podemos derivar distribuciones plausibles sobre posibles etiquetas, en lugar de depender únicamente de la etiqueta más común.

Medidas para la Incertidumbre de Anotación

Basándose en la agregación estadística, se pueden desarrollar medidas para cuantificar la incertidumbre de anotación. Esto nos permite evaluar cuán confiable es una etiqueta dada al evaluar el grado de consenso entre anotadores.

Además, se pueden implementar métricas de rendimiento ajustadas a la incertidumbre para proporcionar una imagen más precisa de las capacidades de la IA. Estas métricas tienen en cuenta la variación en el rendimiento debido a la incertidumbre presente en las etiquetas, que a menudo se ignora en evaluaciones estándar.

Estudio de Caso: Clasificación de Condiciones de la Piel

Para demostrar la efectividad del marco propuesto, podemos mirar un estudio de caso que se centra en la clasificación de condiciones de la piel a partir de imágenes.

Conjunto de Datos y Anotaciones

En este estudio de caso, se pidió a dermatólogos que proporcionaran anotaciones para varias condiciones de la piel basándose en imágenes. Dada la complejidad de las clasificaciones médicas, cada anotador podía proporcionar una lista de posibles condiciones en lugar de un único diagnóstico.

Las anotaciones proporcionadas por múltiples dermatólogos resultaron en una amplia gama de opiniones, lo que llevó a un desacuerdo significativo entre ellos. Esto sirve como un excelente ejemplo de las incertidumbres inherentes y de anotación que discutimos anteriormente.

Evaluando el Rendimiento del Clasificador

Al evaluar el rendimiento de los clasificadores entrenados con estos datos, los métodos tradicionales simplemente tomaron la etiqueta superior asignada a través de procesos de agregación deterministas como la normalización de rango inverso. Sin embargo, este método no tiene en cuenta la incertidumbre presente en las anotaciones, lo que lleva a una sobreestimación del rendimiento del clasificador.

Al aplicar el marco estadístico propuesto, podemos generar distribuciones de plausibilidad sobre posibles condiciones en lugar de depender exclusivamente de la etiqueta superior.

Métricas Ajustadas a la Incertidumbre

Con el marco en su lugar, podemos derivar varias métricas ajustadas a la incertidumbre para evaluar el rendimiento del clasificador de manera más precisa. Por ejemplo, en lugar de solo medir la precisión basada en la predicción superior, podemos examinar con qué frecuencia las predicciones superiores incluyen otras condiciones probables.

Esta examinación más profunda revela que muchos clasificadores que parecen precisos basándose en métricas estándar pueden no funcionar bien cuando se toma en cuenta el factor de incertidumbre.

Conclusión

Como hemos visto, evaluar los sistemas de IA en salud requiere una comprensión matizada de las incertidumbres presentes en la verdad fundamental. Los métodos tradicionales que ignoran estas incertidumbres pueden llevar a resultados engañosos, particularmente en aplicaciones críticas para la seguridad, como el diagnóstico médico.

Al emplear un marco estadístico que tenga en cuenta tanto las incertidumbres de anotación como las inherentes, podemos llegar a una evaluación más precisa del rendimiento del modelo de IA. Este enfoque mejora nuestra comprensión de cuán confiables son las predicciones de la IA, lo que en última instancia lleva a una mejor toma de decisiones en contextos de salud.

Reconocer el desacuerdo entre los anotadores humanos y abordar las incertidumbres en los modelos de aprendizaje automático puede ayudar a mejorar las aplicaciones de IA en medicina, asegurando que los pacientes reciban mejores resultados y minimizando los riesgos asociados con diagnósticos erróneos.

A medida que la IA continúa evolucionando y encontrando su lugar en la salud, los marcos que integran la incertidumbre son esenciales para el uso responsable y efectivo de estas tecnologías en escenarios críticos para la vida.

Fuente original

Título: Evaluating AI systems under uncertain ground truth: a case study in dermatology

Resumen: For safety, AI systems in health undergo thorough evaluations before deployment, validating their predictions against a ground truth that is assumed certain. However, this is actually not the case and the ground truth may be uncertain. Unfortunately, this is largely ignored in standard evaluation of AI models but can have severe consequences such as overestimating the future performance. To avoid this, we measure the effects of ground truth uncertainty, which we assume decomposes into two main components: annotation uncertainty which stems from the lack of reliable annotations, and inherent uncertainty due to limited observational information. This ground truth uncertainty is ignored when estimating the ground truth by deterministically aggregating annotations, e.g., by majority voting or averaging. In contrast, we propose a framework where aggregation is done using a statistical model. Specifically, we frame aggregation of annotations as posterior inference of so-called plausibilities, representing distributions over classes in a classification setting, subject to a hyper-parameter encoding annotator reliability. Based on this model, we propose a metric for measuring annotation uncertainty and provide uncertainty-adjusted metrics for performance evaluation. We present a case study applying our framework to skin condition classification from images where annotations are provided in the form of differential diagnoses. The deterministic adjudication process called inverse rank normalization (IRN) from previous work ignores ground truth uncertainty in evaluation. Instead, we present two alternative statistical models: a probabilistic version of IRN and a Plackett-Luce-based model. We find that a large portion of the dataset exhibits significant ground truth uncertainty and standard IRN-based evaluation severely over-estimates performance without providing uncertainty estimates.

Autores: David Stutz, Ali Taylan Cemgil, Abhijit Guha Roy, Tatiana Matejovicova, Melih Barsbey, Patricia Strachan, Mike Schaekermann, Jan Freyberg, Rajeev Rikhye, Beverly Freeman, Javier Perez Matos, Umesh Telang, Dale R. Webster, Yuan Liu, Greg S. Corrado, Yossi Matias, Pushmeet Kohli, Yun Liu, Arnaud Doucet, Alan Karthikesalingam

Última actualización: 2023-07-05 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.02191

Fuente PDF: https://arxiv.org/pdf/2307.02191

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares