Mejorando la Clasificación con RPExNRule
RPExNRule mejora la clasificación de vecinos más cercanos mediante proyecciones aleatorias y métodos de ensamblaje.
― 6 minilectura
Tabla de contenidos
La clasificación es una parte clave del aprendizaje automático, donde el objetivo es agrupar nuevos datos en categorías basadas en lo que hemos aprendido de datos anteriores. Un método popular para la clasificación se llama vecinos más cercanos (NN). Esta técnica mira los puntos de datos más cercanos para decidir a qué categoría pertenece un punto de datos no visto. Sin embargo, el NN simple puede tener problemas con datos ruidosos o cuando hay características irrelevantes.
Para mejorar el rendimiento del NN, los investigadores han desarrollado Métodos de Conjunto. Estos métodos combinan múltiples modelos de NN para lograr mejores resultados. Al usar diferentes muestras de los datos de entrenamiento, y a veces diferentes características, los modelos de conjunto pueden ofrecer más estabilidad y diversidad, lo que puede llevar a mejores predicciones.
Método de Vecinos Más Cercanos
El método de vecinos más cercanos funciona mirando un conjunto de puntos de datos y encontrando los más cercanos a un nuevo punto que queremos clasificar. La clasificación se hace usando votación por mayoría; en otras palabras, la etiqueta de clase que aparece con más frecuencia entre los vecinos más cercanos es elegida para el nuevo punto. Este método es simple y a menudo proporciona buenos resultados, especialmente cuando no hay mucha información sobre la distribución de los datos subyacentes.
Aunque el NN es efectivo, puede enfrentar desafíos cuando los datos tienen ruido o características poco útiles. Por ejemplo, a veces los puntos más cercanos pueden no ser útiles para hacer una clasificación precisa porque no representan el patrón más amplio en los datos.
Conjuntos de Vecinos Más Cercanos
Para abordar las limitaciones del NN simple, se han creado métodos de conjunto. Estos métodos implican crear múltiples modelos de NN, cada uno entrenado en un subconjunto diferente de los datos de entrenamiento o en diferentes características. El conjunto combina las predicciones de todos estos modelos para llegar a una decisión final.
Una técnica común se conoce como agregación bootstrap, o bagging. Esto implica crear muchas muestras diferentes de los datos seleccionando puntos al azar con reemplazo y entrenando un modelo de NN separado en cada muestra. Cuando llega el momento de clasificar un nuevo punto, cada uno de los modelos vota por una clase, y el que tiene más votos gana. Este enfoque ayuda a reducir las posibilidades de cometer errores repetidos y proporciona un resultado más estable.
Regla de Vecindario Extendida por Proyección Aleatoria
Se ha introducido un nuevo método llamado Regla de Vecindario Extendida por Proyección Aleatoria (RPExNRule) para mejorar aún más los conjuntos de NN. En este enfoque, los datos de entrenamiento originales se usan para crear muestras bootstrap, que luego se proyectan aleatoriamente en un espacio de menor dimensión. Esta proyección agrega más aleatoriedad a los modelos base mientras se mantienen las características importantes de los datos.
La idea es que, al proyectar los datos, podemos crear un conjunto más diverso de aprendices base, cada uno de los cuales proporcionará su predicción para la nueva observación. La decisión final se toma mediante una votación mayoritaria de las predicciones de todos los aprendices base.
Metodología
En el método RPExNRule, el proceso comienza tomando múltiples muestras bootstrap de los datos de entrenamiento. Cada muestra se proyecta aleatoriamente en una dimensión menor para crear conjuntos diversos de aprendices base. Después de entrenar cada modelo, el método predice la clase de observaciones no vistas usando votación mayoritaria.
Las principales ventajas de usar proyecciones aleatorias residen en la aleatoriedad que aportan, lo que ayuda a prevenir el sobreajuste a los datos de entrenamiento mientras se mantienen patrones importantes.
Evaluación del Rendimiento
Para evaluar el rendimiento de RPExNRule, se utilizan varios conjuntos de datos de referencia. Estos conjuntos de datos provienen de diferentes fuentes del mundo real y cubren diversas tareas de clasificación. Usando métricas como la Precisión de Clasificación, el puntaje de Brier y el kappa de Cohen, se hacen comparaciones con otros métodos de clasificación bien conocidos como NN clásico, NN ponderado, NN aleatorio, bosques aleatorios y máquinas de soporte vectorial.
Otra capa de evaluación involucra conjuntos de datos sintéticos generados bajo condiciones controladas. Estos conjuntos de datos sintéticos permiten una comprensión más detallada de cómo se desempeña el método propuesto en diferentes escenarios, incluidos casos con clases mixtas y alta variabilidad entre observaciones.
Resultados y Discusión
Los resultados de estas pruebas revelan que RPExNRule supera significativamente a muchos métodos estándar en una variedad de escenarios. Muestra una mejor precisión de clasificación en la mayoría de los casos y proporciona una ventaja en términos de estabilidad a través de diferentes conjuntos de datos. El equipo detrás de RPExNRule también señaló que el método tiene un rendimiento sólido incluso cuando los puntos de datos están más mezclados o cuando hay características irrelevantes presentes.
Los diagramas de caja ilustran las diferencias en el rendimiento entre varios métodos, destacando cómo RPExNRule muestra consistentemente mejores resultados, particularmente en conjuntos de datos donde los patrones de clase son complejos.
Conclusión
El desarrollo del método RPExNRule representa un avance significativo en el campo de la clasificación utilizando técnicas de vecinos más cercanos. Este método no solo mejora la precisión de predicción al reducir la dependencia de características irrelevantes, sino que también logra mantenerse estable incluso cuando se enfrenta a conjuntos de datos diversos.
A medida que este método continúa refinándose, hay oportunidades para mejorar aún más su rendimiento explorando diferentes métricas de distancia y procesos de selección de características. En general, los conocimientos obtenidos de RPExNRule contribuyen significativamente a los esfuerzos en curso para mejorar las técnicas de clasificación en el aprendizaje automático.
Este enfoque muestra promesa para aplicaciones prácticas donde la clasificación precisa es crucial, lo que lo convierte en una adición valiosa a la caja de herramientas de métodos disponibles para científicos de datos y profesionales del aprendizaje automático.
Al combinar las fortalezas de los vecinos más cercanos con técnicas novedosas como proyecciones aleatorias y aprendizaje en conjunto, RPExNRule abre nuevos caminos para abordar desafíos de clasificación de manera efectiva.
Título: A Random Projection k Nearest Neighbours Ensemble for Classification via Extended Neighbourhood Rule
Resumen: Ensembles based on k nearest neighbours (kNN) combine a large number of base learners, each constructed on a sample taken from a given training data. Typical kNN based ensembles determine the k closest observations in the training data bounded to a test sample point by a spherical region to predict its class. In this paper, a novel random projection extended neighbourhood rule (RPExNRule) ensemble is proposed where bootstrap samples from the given training data are randomly projected into lower dimensions for additional randomness in the base models and to preserve features information. It uses the extended neighbourhood rule (ExNRule) to fit kNN as base learners on randomly projected bootstrap samples.
Autores: Amjad Ali, Muhammad Hamraz, Dost Muhammad Khan, Wajdan Deebani, Zardad Khan
Última actualización: 2023-03-21 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.12210
Fuente PDF: https://arxiv.org/pdf/2303.12210
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.openml.org/d/1066
- https://www.openml.org/d/41976
- https://www.openml.org/d/1048
- https://www.openml.org/d/753
- https://www.openml.org/d/1062
- https://www.openml.org/d/1480
- https://www.openml.org/d/1490
- https://www.openml.org/d/739
- https://www.openml.org/d/944
- https://www.openml.org/d/1054
- https://www.openml.org/d/915
- https://www.openml.org/d/1026