Evaluando el rendimiento de clasificadores en biología computacional
Una mirada detallada a medir e interpretar los métodos de clasificación en biología.
― 7 minilectura
Tabla de contenidos
- Midiendo el Rendimiento
- El Papel de AUPRC
- Herramientas de Software y sus Diferencias
- Construyendo la PRC
- Manejo de Empates en las Puntuaciones de Clasificación
- Problemas con las Herramientas de Software
- Visualizando la PRC
- Consecuencias de las Inconsistencias
- Escenarios del Mundo Real
- Entendiendo las Variaciones de las Herramientas de Software
- Conclusión
- Fuente original
- Enlaces de referencia
Muchos problemas en biología computacional se pueden ver como una especie de preguntas de sí o no. Por ejemplo, los científicos suelen querer saber si una célula específica pertenece a un cierto tipo de célula. Para tomar estas decisiones, los investigadores utilizan diversas medidas para evaluar qué tan bien están funcionando estos métodos de Clasificación. Algunas medidas comunes incluyen Precisión, exactitud y recuerdo. Estas medidas ayudan a determinar qué tan buena es una metodología para identificar correctamente las células de interés.
Midiendo el Rendimiento
Cuando los científicos miden qué tan bien funcionan sus clasificadores, a menudo usan un umbral. Este umbral es una puntuación que separa las clases, indicando si una célula pertenece al grupo objetivo o no. Sin embargo, encontrar el mejor umbral puede ser complicado. La curva de características operativas del receptor (ROC) y la curva de precisión y recuerdo (PRC) ofrecen mejores maneras de ver el rendimiento al considerar muchos umbrales diferentes. Al hacer esto, ayudan a los investigadores a evaluar el equilibrio entre identificar correctamente las células objetivo y clasificar erróneamente otras células como objetivo.
El área bajo la Curva ROC (AUROC) y el área bajo la curva PRC (AUPRC) son valores numéricos que resumen estas curvas. Los valores cercanos a uno indican un mejor rendimiento.
El Papel de AUPRC
En casos donde una clase es mucho más pequeña que las demás, AUPRC tiende a ofrecer una imagen más clara del rendimiento de clasificación en comparación con AUROC. Esta sensibilidad hace que AUPRC sea útil en muchas aplicaciones. Por ejemplo, ayuda a reconstruir redes biológicas, identificar genes relacionados con el cáncer, averiguar sitios de unión de proteínas y predecir cómo responderán los pacientes a los tratamientos.
Debido a su importancia en la clasificación, AUPRC también se ha utilizado ampliamente en estudios de comparación. Esto significa que a menudo se usa para comparar diferentes métodos de análisis de datos biológicos, como entender la expresión genética o la comunicación entre células.
Herramientas de Software y sus Diferencias
Investigaciones muestran que las herramientas de software que se utilizan para calcular PRC y AUPRC a menudo producen resultados diferentes. Esta inconsistencia puede llevar a conclusiones demasiado optimistas o sesgadas sobre qué tan bien está funcionando un clasificador. Cuando un clasificador analiza un grupo de entidades, produce una puntuación que indica la probabilidad de que cada entidad pertenezca a una clase objetivo. Dependiendo del tipo de clasificador, estas puntuaciones pueden ser discretas o continuas.
Para crear predicciones binarias, los investigadores establecen un umbral. Si una puntuación está por encima de este umbral, la entidad se considera una coincidencia positiva; de lo contrario, se considera negativa. Al comparar estas predicciones con las clasificaciones reales, la precisión mide la proporción de entidades positivas predichas correctamente entre todas las positivas predichas. El recuerdo mide cuántas positivas reales fueron identificadas.
Construyendo la PRC
La PRC es una representación gráfica que ayuda a visualizar cómo varía la precisión con el recuerdo. Para construir una PRC, los investigadores primero recogen puntuaciones de clasificación únicas. Estas puntuaciones se utilizan como umbrales para calcular pares de valores de precisión y recuerdo, que se convierten en puntos de anclaje en la curva. Al conectar estos puntos de anclaje, los investigadores pueden formar la PRC completa.
Cuando las puntuaciones son únicas, es fácil conectar estos puntos con líneas rectas. Sin embargo, cuando múltiples entidades comparten la misma puntuación, esto complica las cosas. Esta situación lleva a la necesidad de diferentes métodos para conectar los puntos de anclaje. Algunos métodos conectan estos puntos usando líneas rectas, mientras que otros usan curvas para una transición más suave.
Manejo de Empates en las Puntuaciones de Clasificación
En tareas de clasificación donde ocurren empates, donde varias entidades reciben la misma puntuación, forman un solo punto de anclaje. Los investigadores pueden usar diferentes métodos para conectar estos puntos de anclaje. Por ejemplo, un método puede conectar los puntos con líneas rectas o segmentos por partes.
Usar interpolación lineal puede llevar a valores AUPRC demasiado optimistas. Esto se debe a la naturaleza del método de producir AUPRC más altos que los métodos alternativos, especialmente bajo condiciones realistas. Otros métodos intentan evitar este problema usando curvas o conexiones por pasos.
Problemas con las Herramientas de Software
Se examinaron diez herramientas de software populares, revelando que producen valores AUPRC variados debido a sus diferentes métodos de conectar puntos de anclaje. Esta discrepancia afecta cómo se clasifican los clasificadores. Por ejemplo, en estudios del mundo real, el mismo clasificador podría clasificarse de manera diferente dependiendo de la herramienta utilizada para la evaluación.
Se encontraron varios problemas conceptuales respecto a cómo estas herramientas calculan AUPRC. Algunas herramientas pueden comenzar la PRC de manera consistente en un cierto punto, incluso si no cumple con los niveles de precisión esperados. Otras pueden no generar una PRC completa que abarque todos los valores de recuerdo. El orden de las entidades según cómo se enumeran también puede afectar los cálculos.
Visualizando la PRC
Además de calcular AUPRC, algunas herramientas ofrecen visualizaciones. Sin embargo, estas visualizaciones también suelen reflejar los mismos problemas que se encuentran en los cálculos de AUPRC. Por ejemplo, las curvas visuales pueden comenzar en un punto que no representa recuerdo cero, o pueden representar incorrectamente la relación entre la precisión y el recuerdo.
Consecuencias de las Inconsistencias
Estas inconsistencias en las herramientas de software pueden llevar a varios problemas, como valores AUPRC demasiado optimistas, mal clasificaciones de clasificadores o sesgos en los resultados de evaluación. Cuando los clasificadores producen puntuaciones discretas, el potencial de valores AUPRC inflados se vuelve aún más pronunciado. Tales discrepancias pueden engañar a los investigadores en sus conclusiones.
Escenarios del Mundo Real
Para mostrar el impacto de estas herramientas, se analizaron cuatro escenarios de la vida real. El primero involucró datos de pacientes con COVID-19, donde un clasificador predijo la presencia de células T CD4+. Diferentes herramientas de software arrojaron varios valores AUPRC, demostrando las inconsistencias entre ellas.
En el segundo escenario, los clasificadores predijeron casos del subtipo de colitis ulcerosa de la enfermedad inflamatoria intestinal. Basado en los valores AUPRC calculados, estos clasificadores se clasificaron de manera diferente, ilustrando cómo las herramientas pueden producir evaluaciones diferentes del rendimiento.
El tercer ejemplo examinó clasificadores identificando casos de ruptura prematura de membranas en mujeres embarazadas. Nuevamente, las herramientas generaron clasificaciones variadas, con algunas clases recibiendo altas clasificaciones en una herramienta pero bajas en otras.
Un cuarto escenario involucró predecir genes objetivo influenciados por factores de transcripción. Similar a los ejemplos anteriores, diferentes herramientas llevaron a variaciones significativas en las clasificaciones, destacando el impacto de la elección de la herramienta.
Entendiendo las Variaciones de las Herramientas de Software
El análisis de 12 herramientas de software enfatizó aún más los métodos que cada herramienta emplea, contribuyendo a sus diferencias en el cálculo de PRC y AUPRC. A pesar de que algunas herramientas ofrecen múltiples métodos, la ausencia de estandarización significa que los resultados pueden variar enormemente.
Conclusión
El análisis de la clasificación binaria en biología computacional revela un panorama complejo donde la elección de herramientas influye significativamente en los resultados. Con el compromiso de mejorar la precisión y claridad en las tareas de clasificación, los investigadores deben prestar mucha atención a las herramientas que seleccionan y cómo interpretan los resultados. A medida que las metodologías evolucionan, un enfoque unificado puede ayudar a aclarar inconsistencias y llevar a evaluaciones más fiables en el futuro.
Título: Commonly used software tools produce conflicting and overly-optimistic AUPRC values
Resumen: The precision-recall curve (PRC) and the area under it (AUPRC) are useful for quantifying classification performance. They are commonly used in situations with imbalanced classes, such as cancer diagnosis and cell type annotation. We evaluated 10 popular tools for plotting PRC and computing AUPRC, which were collectively used in >3,000 published studies. We found the AUPRC values computed by the tools rank classifiers differently and some tools produce overly-optimistic results.
Autores: Kevin Yip, W. Chen, C. Miao, Z. Zhang, C. S.-H. Fung, R. Wang, Y. Chen, Y. Qian, L. Cheng, S. K.-W. Tsui, Q. Cao
Última actualización: 2024-02-07 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.02.02.578654
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.02.02.578654.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.