Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Inteligencia artificial# Informática y sociedad

Evaluando el rendimiento de la IA en entornos clínicos

El nuevo marco SUDO ayuda a evaluar sistemas de IA sin datos de verdad fundamentada.

― 6 minilectura


Evaluación de IA enEvaluación de IA enMedicinaevaluación de IA.El marco SUDO redefine los métodos de
Tabla de contenidos

En los últimos años, el uso de la IA en entornos clínicos ha crecido bastante. Los sistemas de IA están diseñados para analizar varios tipos de datos médicos y ayudar en tareas como diagnosticar enfermedades o predecir los resultados de los pacientes. Sin embargo, antes de usar estos sistemas en situaciones reales, tienen que ser evaluados para asegurarse de que son precisos y confiables. Esta evaluación normalmente implica probar la IA con datos que no ha visto antes para simular cómo se desempeñaría en situaciones clínicas reales.

El reto de evaluar los sistemas de IA

Uno de los grandes retos al evaluar los sistemas de IA es el "cambio de distribución". Este término se refiere a la diferencia entre los datos usados para entrenar la IA y los datos que encuentra cuando se despliega. Por ejemplo, si una IA se entrena con datos de un hospital, su rendimiento puede fallar cuando se aplica a los datos de otro hospital diferente. Además, muchos conjuntos de datos del mundo real no tienen anotaciones de "Verdad Fundamental", lo que significa que no hay una manera confiable de confirmar la precisión de las predicciones de la IA.

Presentando SUDO

Para abordar estos desafíos, presentamos un marco llamado SUDO. Este marco está diseñado para evaluar sistemas de IA incluso cuando no hay anotaciones de verdad fundamental disponibles. SUDO funciona asignando etiquetas temporales a los puntos de datos que encuentra en el mundo. Luego utiliza estas etiquetas para entrenar diferentes modelos, lo que nos permite determinar cuál modelo tiene mejor rendimiento. La idea es que el modelo con el mejor rendimiento probablemente represente las etiquetas más precisas.

Cómo funciona SUDO

SUDO involucra una serie de pasos:

  1. Desplegando IA en datos reales: Primero, el sistema de IA se aplica a datos del mundo real para obtener valores de probabilidad que sugieren qué tan probable es que cada punto de datos pertenezca a una clase particular.

  2. Creando intervalos de probabilidad: El siguiente paso es dividir estos valores de probabilidad en varios grupos o intervalos.

  3. Muestreo de puntos de datos: Desde cada intervalo de probabilidad, el marco toma muestras de puntos de datos y les asigna etiquetas temporales basadas en sus valores de probabilidad.

  4. Entrenando un clasificador: Luego se entrena un clasificador para diferenciar entre estos nuevos puntos de datos etiquetados y los que tienen etiquetas conocidas de la clase opuesta.

  5. Evaluación: Finalmente, se evalúa el rendimiento del clasificador usando un conjunto separado de datos con etiquetas de verdad fundamental, lo que nos permite calcular la "discrepancia de pseudoetiquetas". Una discrepancia mayor indica que las predicciones del modelo son probablemente más confiables.

Por qué SUDO es importante

SUDO es significativo porque permite a investigadores y clínicos evaluar el rendimiento de modelos de IA sin necesidad de datos de verdad fundamental. Con SUDO, es posible identificar predicciones poco confiables, elegir mejores modelos para aplicaciones clínicas y evaluar posibles Sesgos en los sistemas de IA.

SUDO en acción: Estudios de caso

Imágenes dermatológicas

En un estudio, se aplicó SUDO para evaluar sistemas de IA que analizaban imágenes dermatológicas. Se probaron dos modelos con el conjunto de datos diverso de imágenes dermatológicas de Stanford. Estos modelos se desempeñaron bien con sus datos de entrenamiento pero tuvieron problemas con los nuevos datos, lo que resaltó la presencia de cambio de distribución.

Usando SUDO, los investigadores encontraron una correlación entre las salidas del marco y la precisión de las predicciones de la IA. Esto subrayó el potencial de SUDO como un proxy confiable para el rendimiento del modelo incluso cuando las etiquetas de verdad fundamental no estaban disponibles.

Evaluación del sesgo algorítmico

SUDO también puede usarse para evaluar posibles sesgos en las predicciones de IA, particularmente en relación con diferentes grupos de pacientes. Al analizar predicciones a través de varios demográficos (como el tono de piel), SUDO puede resaltar discrepancias en el rendimiento del modelo, permitiendo un despliegue más equitativo de la IA en entornos clínicos.

Datos de histopatología

Otra aplicación de SUDO se vio en la evaluación de predicciones de IA para imágenes de histopatología. Se entrenó un modelo en un conjunto de datos diseñado para reflejar escenarios del mundo real, donde el conjunto de prueba contenía datos de hospitales que no estaban incluidos en el proceso de entrenamiento. SUDO demostró ser una medida confiable del rendimiento del modelo, apoyando su uso para identificar predicciones poco confiables.

Datos de procesamiento de lenguaje natural

SUDO también se probó con un modelo de procesamiento de lenguaje natural (NLP) que analizaba reseñas de productos. Los modelos sobreconfianzados, que a menudo ofrecen predicciones erróneas con alta confianza, fueron evaluados usando SUDO. El marco continuó desempeñándose bien, mostrando que podía evaluar efectivamente la confiabilidad del modelo incluso cuando los modelos estaban excesivamente seguros.

Pasos prácticos para usar SUDO

Al implementar SUDO, hay varias consideraciones prácticas:

  1. Modalidad de datos: SUDO se puede aplicar a varios tipos de datos, incluidas imágenes y texto. Está diseñado para funcionar sin importar el formato de datos.

  2. Elección del clasificador: Se recomienda un clasificador ligero para el entrenamiento, ayudando a acelerar el proceso de evaluación sin comprometer la precisión.

  3. Tamaño de muestra: Es aconsejable muestrear una cantidad suficiente de puntos de datos de cada intervalo de probabilidad para asegurar resultados representativos.

  4. Calidad de las etiquetas: Asegurarse de que el conjunto de datos reservado para la evaluación tenga poco ruido en sus etiquetas es crucial para un rendimiento confiable de SUDO.

El futuro de SUDO

A medida que la IA continúa integrándose en entornos clínicos, marcos como SUDO serán cada vez más valiosos. La capacidad de evaluar la confiabilidad de los sistemas de IA sin etiquetas de verdad fundamental puede mejorar la integridad de la investigación y promover el uso ético de la IA en medicina. SUDO también puede evolucionar para abordar escenarios más complejos y diversos casos de uso en el cuidado de la salud y más allá, ampliando su impacto.

Conclusión

El marco SUDO ofrece una solución prometedora a los importantes desafíos que se enfrentan al evaluar sistemas de IA en entornos clínicos, particularmente al tratar con cambios de distribución y la falta de datos de verdad fundamental. Al permitir una evaluación más confiable del rendimiento de la IA, SUDO contribuye de manera significativa al despliegue seguro y efectivo de tecnologías de IA en medicina.

Fuente original

Título: SUDO: a framework for evaluating clinical artificial intelligence systems without ground-truth annotations

Resumen: A clinical artificial intelligence (AI) system is often validated on a held-out set of data which it has not been exposed to before (e.g., data from a different hospital with a distinct electronic health record system). This evaluation process is meant to mimic the deployment of an AI system on data in the wild; those which are currently unseen by the system yet are expected to be encountered in a clinical setting. However, when data in the wild differ from the held-out set of data, a phenomenon referred to as distribution shift, and lack ground-truth annotations, it becomes unclear the extent to which AI-based findings can be trusted on data in the wild. Here, we introduce SUDO, a framework for evaluating AI systems without ground-truth annotations. SUDO assigns temporary labels to data points in the wild and directly uses them to train distinct models, with the highest performing model indicative of the most likely label. Through experiments with AI systems developed for dermatology images, histopathology patches, and clinical reports, we show that SUDO can be a reliable proxy for model performance and thus identify unreliable predictions. We also demonstrate that SUDO informs the selection of models and allows for the previously out-of-reach assessment of algorithmic bias for data in the wild without ground-truth annotations. The ability to triage unreliable predictions for further inspection and assess the algorithmic bias of AI systems can improve the integrity of research findings and contribute to the deployment of ethical AI systems in medicine.

Autores: Dani Kiyasseh, Aaron Cohen, Chengsheng Jiang, Nicholas Altieri

Última actualización: 2024-01-02 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.17011

Fuente PDF: https://arxiv.org/pdf/2403.17011

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares