Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ciencias de la Salud# Informática sanitaria

Mejorando el diagnóstico del cáncer de mama con aprendizaje automático

Un nuevo modelo mejora la precisión del diagnóstico de cáncer de mama usando aprendizaje automático.

― 7 minilectura


Los avances en MachineLos avances en MachineLearning mejoran eldiagnóstico del cáncer.cáncer de mama.precisión en la clasificación delUn nuevo modelo muestra una mejor
Tabla de contenidos

El cáncer es una enfermedad seria que afecta a mucha gente en todo el mundo. Hacer un diagnóstico correcto es clave para un tratamiento efectivo. En los últimos años, los doctores han tenido acceso a muchas herramientas y marcadores nuevos que les ayudan a entender y diagnosticar mejor el cáncer. Estos marcadores incluyen resultados de laboratorio, pruebas de imagen y datos sobre los genes del tumor. Sin embargo, con tanta información disponible, hacer diagnósticos precisos basados en esto se ha vuelto bastante complicado. El aprendizaje automático, un tipo de tecnología computacional, ha surgido como una herramienta útil para que los doctores analicen estos datos.

Aprendizaje Automático y Diagnóstico de Cáncer

Los métodos de aprendizaje automático pueden manejar grandes cantidades de datos e identificar patrones que podrían no ser evidentes para los humanos. Al usar estas técnicas, podemos clasificar y predecir varios aspectos de las enfermedades. Por ejemplo, el cáncer de mama es uno de los cánceres más comunes entre las mujeres en Estados Unidos. Los doctores utilizan diferentes biomarcadores para ayudar a diagnosticarlo. Algunos de estos incluyen el Receptor de Estrógeno (ER), el Receptor de Progesterona (PR) y el Receptor 2 del Factor de Crecimiento Epidérmico Humano (HER2).

Un conjunto de datos específico que se usa a menudo para la investigación sobre cáncer de mama es el Conjunto de Datos de Cáncer de Mama de Wisconsin (WBCD). Este conjunto contiene información sobre varios biomarcadores de 569 sujetos, incluyendo aquellos con tumores benignos (no cancerosos) y malignos (cancerosos). Se han estudiado varios algoritmos de aprendizaje automático usando este conjunto de datos, incluyendo vecindario más cercano, Regresión Logística, árboles de decisión y redes neuronales.

El Estudio Actual

El estudio actual se centra en desarrollar un nuevo modelo de aprendizaje automático que busca diagnosticar el cáncer de mama de manera precisa usando datos de biomarcadores estructurados. El modelo utiliza un método llamado K-vecinos más cercanos (kNN) junto con la teoría de conjuntos difusos y ásperos y una técnica conocida como bagging.

Recopilación de Datos

El primer paso en este proyecto implicó recopilar los datos del WBCD. El conjunto de datos incluye tanto tumores benignos como malignos junto con diferentes características de biomarcadores.

Visualización de Datos

Después de recopilar los datos, el siguiente paso fue visualizarlos. Esto significa convertir los datos en gráficos y diagramas para ver patrones, tendencias y puntos inusuales. La visualización juega un papel clave en entender qué biomarcadores son más informativos para diagnosticar el cáncer. Para este estudio, se crearon gráficos como histogramas, mapas de calor y diagramas de caja para analizar los datos de biomarcadores.

Preprocesamiento de Datos

Luego, los datos necesitaban ser limpiados y preparados para el análisis. El WBCD ya es un conjunto de datos limpio, pero requería codificación one-hot para la variable objetivo, lo que significa que tuvimos que convertir las categorías benignas y malignas en valores numéricos. También se realizó detección de valores atípicos para encontrar puntos de datos inusuales que pudieran afectar los resultados.

Los valores atípicos pueden distorsionar los resultados de los modelos de aprendizaje automático. Se utilizaron dos métodos para identificar valores atípicos: el método del rango intercuartílico (IQR) y el Clustering Espacial Basado en Densidad de Aplicaciones con Ruido (DBSCAN). DBSCAN ayuda a identificar grupos de puntos de datos similares y puede encontrar valores atípicos que no encajan en ningún grupo.

Ingeniería de Características

La ingeniería de características ayuda a transformar datos en bruto en características más útiles para el modelo de aprendizaje automático. En este estudio, se utilizaron dos técnicas para mejorar el conjunto de datos: el coeficiente de correlación de Pearson, que mide la relación entre variables, y el Análisis Discriminante Lineal (LDA), que ayuda a reducir las dimensiones de los datos manteniendo la información más importante.

Algoritmos de Aprendizaje Automático

Se utilizaron varios algoritmos de aprendizaje automático para clasificar los tumores como benignos o malignos. A continuación, se presentan algunos de los algoritmos clave evaluados en este estudio:

K-Vecinos Más Cercanos (KNN)

KNN es un algoritmo simple pero efectivo que clasifica los puntos de datos basándose en los "k" puntos más cercanos en el conjunto de datos. Cuando se le da un nuevo punto de datos, el algoritmo encuentra los vecinos más cercanos y asigna una clasificación basada en la mayoría de esos vecinos.

Regresión Logística

La regresión logística es otro método popular, pero tiene limitaciones. Crea una curva para separar clases, lo que puede no capturar bien la complejidad de los datos. Este enfoque no fue tan preciso en este estudio en comparación con otros modelos.

Bosque Aleatorio

El algoritmo de Bosque Aleatorio combina muchos árboles de decisión para mejorar la precisión de la predicción. Sin embargo, en este estudio, se encontró que este algoritmo tendía a sobreajustar, lo que significa que funcionaba muy bien con los datos de entrenamiento pero mal con datos nuevos. Este sobreajuste es un problema común al tratar con modelos complejos.

Clasificador Lineal de Soporte Vectorial

El Clasificador Lineal de Soporte Vectorial (Linear SVC) tuvo un buen desempeño en este estudio, logrando una alta puntuación de precisión. El uso de LDA ayudó a mejorar su rendimiento al hacer que los datos fueran más fácilmente separables en clases.

Perceptrón Multicapa

Este método de aprendizaje profundo utiliza capas de neuronas para analizar datos. A pesar de su complejidad, no superó a algoritmos más simples en este caso. Los modelos de aprendizaje profundo a menudo requieren grandes cantidades de datos para funcionar bien, y este conjunto de datos no era lo suficientemente grande para ver mejoras significativas.

K-Vecinos Difusos-Aspérrimos Agrupados (BFRNN)

El modelo BFRNN combina la teoría de conjuntos difusos-ásperos con el algoritmo kNN e incluye una técnica de bagging. Este enfoque mejora el rendimiento del modelo al reducir la variabilidad y mejorar la precisión.

Resultados y Discusión

Resultados de Visualización de Datos

Los gráficos de distribución mostraron claras diferencias entre tumores benignos y malignos para algunos biomarcadores, mientras que otros tenían una superposición significativa, lo que significa que no ayudaban mucho en la clasificación.

Resultados de Preprocesamiento de Datos

Los diagramas de caja proporcionaron información sobre qué biomarcadores eran valores atípicos, ayudando a refinar el conjunto de datos para un mejor análisis.

Resultados de Ingeniería de Características

Los mapas de calor mostraron la correlación entre varios biomarcadores, permitiendo identificar las características clave que mejor predijeron la clasificación de tumores.

Rendimiento de Aprendizaje Automático

Se midió el rendimiento de todos los algoritmos, y el modelo BFRNN superó a los demás, logrando una alta precisión en las pruebas. Aunque kNN y Linear SVC también funcionaron bien, los resultados indicaron que el enfoque único del algoritmo BFRNN clasificó tumores de manera efectiva.

Conclusión

El estudio demostró el potencial de aplicar técnicas de aprendizaje automático para mejorar el diagnóstico del cáncer. El modelo BFRNN mostró promesa al clasificar tumores de manera precisa y podría ser una herramienta valiosa para los proveedores de salud. Incorporar otros factores como la historia médica y biomarcadores adicionales podría mejorar aún más la efectividad del modelo. Esta investigación destaca la importancia de la innovación continua en el diagnóstico del cáncer y el papel de la tecnología en transformar cómo entendemos y tratamos esta enfermedad.

Fuente original

Título: Bagged Fuzzy-Rough Nearest Neighbors (BFRNN): A Novel Ensemble Learning Algorithm for Disease Diagnosis and Prognosis Prediction

Resumen: Purpose of the study is to develop a novel machine learning (ML) algorithm that can accurately predict malignant versus benign tumors. A novel ML hybrid ensemble model called "Bagged Fuzzy-Rough k-Nearest Neighbors" (BFRNN) was developed. BFRNN is an improvement over the widely used k-Nearest Neighbors algorithm due to its use of fuzzy-rough logic and an unique ensemble voting algorithm. Initially, graphical libraries were used to visualize the Wisconsin Breast Cancer biomarker dataset (WBCBD) to capture useful insights about the data. Following preprocessing of the data (e.g. encoding categorical data snd removing outliers), a small subset of the most important breast cancer biomarkers were chosen based on feature selection technique and applying breast cancer domain knowledge. The performance of BFRNN was compared with a sample of five commonly used ML classification algorithms. The criteria for the evaluation the performance of ML was based on accuracy, area under the Receiver Operating Characteristic curve, and the ability to overcome overfitting. Discussion: Among the algorithms evaluated, BFRNN was the best classifier of WBCBD achieving an average training score of 98.47% and an average testing score of 99.09%. Among the other common ML algorithms evaluated, the highest test accuracy observed was 95.1% for Random Forest, with significant overfitting. In addition, outlier removal from the dataset and Pearsons Correlation evaluation steps can be avoided for the implementation of the BFRNN algorithm. BFRNN has shown high accuracy in classifying the malignant versus benign characteristics and this algorithm could be a useful tool in disease diagnosis.

Autores: Aashish S Cheruvu

Última actualización: 2023-10-22 00:00:00

Idioma: English

Fuente URL: https://www.medrxiv.org/content/10.1101/2023.10.21.23297353

Fuente PDF: https://www.medrxiv.org/content/10.1101/2023.10.21.23297353.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a medrxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares