Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Usando Aprendizaje Automático para Clasificación de Temas en Políticas Alemanas

Este estudio evalúa modelos de aprendizaje automático para clasificar páginas web relacionadas con políticas de Alemania.

― 10 minilectura


Aprendizaje automáticoAprendizaje automáticopara contenido depolíticaspara páginas web de políticas alemanas.Analizando modelos de clasificación
Tabla de contenidos

Los investigadores en ciencias políticas y sociales usan modelos de Clasificación para analizar tendencias en el consumo de información al estudiar los historiales de navegación de muchas páginas web. Necesitan métodos automáticos porque etiquetar todos esos datos manualmente no es práctico.

En este trabajo, nos enfocamos en detectar Contenido relacionado con temas como una tarea de clasificación binaria. Comparamos qué tan bien funcionan los modelos pre-entrenados ajustados finamente en comparación con las estrategias de aprendizaje en contexto. Usando solo unos pocos cientos de ejemplos etiquetados por tema, buscamos identificar contenido sobre tres políticas alemanas específicas en una colección de páginas web extraídas. Comparamos modelos que entienden varios idiomas con aquellos que solo entienden alemán, y también investigamos cómo diferentes métodos de muestreo de datos Negativos afectan los resultados. También exploramos cómo combinar características de URL y contenido impacta la clasificación.

Nuestros hallazgos indican que incluso una pequeña muestra de datos etiquetados puede crear un clasificador efectivo. Ajustar finamente los modelos basados en codificadores produjo mejores resultados que el aprendizaje en contexto. Los clasificadores que utilizaron tanto características de URL como contenido fueron los que mejor funcionaron, mientras que usar solo URLs mostró buenos resultados cuando faltaba contenido.

Entendiendo la Necesidad de Clasificación

La clasificación de texto ayuda a los investigadores a comprender cómo las personas consumen información. Al categorizar grandes colecciones de historiales de navegación, pueden identificar patrones en el consumo de noticias en línea y medir la exposición a ideas específicas, como el populismo. A menudo, solo una pequeña parte de las visitas a páginas web se ajusta a un tema particular, lo que dificulta la etiquetación manual. Por esta razón, los clasificadores de aprendizaje automático se convierten en una solución útil, automatizada y escalable.

Con el auge de la arquitectura de transformadores, el Ajuste fino de modelos de lenguaje pre-entrenados se volvió estándar para la clasificación de texto. Las aplicaciones varían desde analizar opiniones públicas sobre políticas hasta identificar contenido relacionado con protestas en artículos de noticias. Otras aplicaciones incluyen análisis de sentimientos en redes sociales y publicidad. Sin embargo, el ajuste fino de clasificadores generalmente requiere cientos a miles de documentos etiquetados manualmente. Dada la naturaleza diversa de la web y los datos desordenados de la extracción, crear un buen conjunto de entrenamiento suele ser complicado y requiere mucho tiempo.

Explorando Modelos de Lenguaje Grande para Clasificación de Temas

En este estudio, analizamos el uso de modelos de lenguaje grande (LLMs) para la clasificación binaria de temas a través de un conjunto de páginas web extraídas. Verificamos nuestro método identificando páginas que brindan información sobre tres políticas alemanas específicas: (1) una política para luchar contra la pobreza infantil, (2) promoción de energías renovables, y (3) cambios en las leyes del cannabis. Evaluamos la precisión de la clasificación entre modelos de lenguaje pre-entrenados multilingües y monolingües, ajustándolos con datos etiquetados. También exploramos modelos generativos y evaluamos cómo funcionan los prompting de pocos ejemplos o cero ejemplos para la clasificación de documentos.

Trabajo Relacionado

Los investigadores en ciencias políticas y sociales usan cada vez más la clasificación de temas para filtrar grandes colecciones de páginas web. Esta tarea a menudo se ve como clasificación binaria o multiclasificación, donde los segmentos de texto se asignan a una o más categorías predefinidas. Hasta hace poco, los investigadores se basaban en métodos tradicionales como clasificadores de Bayes ingenuo y regresión logística.

La introducción de modelos BERT ofreció nuevas oportunidades para mejorar la precisión de la clasificación. El ajuste fino de modelos BERT se ha usado para clasificar opiniones públicas sobre políticas y detectar contenido relacionado con protestas en artículos. Otras investigaciones abarcan el uso de características de URL, contenido extraído y varios tipos de datos para la clasificación de páginas web.

Aprendizaje Basado en Características y Avances Recientes

Históricamente, la clasificación de texto implicaba extraer representaciones vectoriales del texto y usarla con clasificadores para determinar etiquetas finales. Técnicas como Máquinas de Vectores de Soporte y modelos de Bayes ingenuo, a menudo con vectores TF-IDF basados en frecuencia, eran el estándar. Recientemente, los enfoques comenzaron a usar métodos como Word2Vec y GloVe para crear representaciones densas.

Los avances recientes en la clasificación de texto surgieron con modelos como BERT, utilizando mecanismos de atención y entrenados con grandes cantidades de texto no etiquetado antes de ajustarse para tareas específicas como la clasificación de documentos. Modelos como mBERT están preparados con datos en varios idiomas, mientras que XLM-RoBERTa se basa en texto de muchos idiomas. El ajuste fino de BERT generalmente implica reemplazar la última capa con una cabeza de clasificación para predicciones finales.

Examinando Modelos Pre-entrenados en Textos Alemanes

Mucha investigación se ha centrado en tareas de clasificación de texto específicamente para el alemán. Si bien no todos los estudios usan modelos de transformadores para la clasificación de texto en alemán, muchos destacan las ventajas de los modelos BERT en esta área. DBMDZ BERT es similar a BERT-base pero entrenado con segmentos alemanes de ciertas fuentes de datos. GBERT supera a otras variantes y usa datos adicionales para mejorar el entrenamiento.

Aprendizaje en Contexto con Modelos Generativos

Grandes modelos generativos como FLAN, Mistral y LLaMa también son basados en transformadores pero usan estructuras diferentes para generar salidas. Estos modelos han demostrado una gran adaptabilidad en varias tareas de PLN al incluir instrucciones directamente en la entrada, a menudo junto con algunos ejemplos etiquetados, eliminando la necesidad de actualizaciones de parámetros. Los modelos generativos suelen tener algunas habilidades multilingües, permitiéndoles manejar diferentes idiomas.

Si bien las redes neuronales son la mejor opción para la clasificación de texto hoy en día, la investigación actual aún carece de una evaluación completa de los LLMs para encontrar contenido relacionado con temas en páginas web alemanas. Este estudio busca proporcionar una investigación exhaustiva sobre esta brecha mientras la compara con métodos tradicionales.

Proceso de Recolección y Anotación de Datos

Recopilamos trazas de navegación como parte de un proyecto más grande donde los participantes participaron en un estudio en línea. Se instruyó a los participantes a encontrar información sobre tres temas de políticas. Durante el estudio, visitaron muchas URLs únicas, y solo algunas fueron consideradas relevantes tras una revisión manual. Para enriquecer nuestro conjunto de datos, añadimos más URLs buscando políticas en línea.

Las URLs fueron extraídas utilizando ciertos paquetes de Python, y se extrajo contenido de texto plano del HTML. Etiquetamos manualmente los datos de cada tema con etiquetas que indicaban si eran relevantes o no. Aplicamos un proceso de filtrado en múltiples pasos para refinar nuestros datos, asegurándonos de que solo las URLs más relevantes estuvieran en nuestro conjunto de datos final.

Después de extraer y anotar las páginas web, establecimos un conjunto de datos de alta confianza compuesto por varias páginas relevantes para cada tema y muchas no relevantes. También recopilamos datos adicionales con etiquetas de menor confianza para probar nuestros clasificadores en condiciones del mundo real.

Preprocesamiento de Datos para Entrenamiento Efectivo

Detallamos los pasos de preprocesamiento para organizar los conjuntos de datos para entrenamiento y evaluación, incluyendo cómo muestrear ejemplos y manejar páginas web más largas. Dividimos los conjuntos de datos en conjuntos de entrenamiento y prueba, asegurándonos de que solo se utilizaran URLs confiables.

Para manejar el contexto de entrada limitado para nuestros modelos, dividimos el contenido de las páginas web en partes más pequeñas mientras aseguramos que mantuvimos registro de sus etiquetas originales. Para nuestros experimentos, tomamos diferentes enfoques para entrenamiento y prueba para evaluar la clasificación supervisada.

Estrategias de Muestreo de Ejemplos Negativos

Abordamos el desequilibrio en nuestro conjunto de datos investigando varios métodos para el muestreo de ejemplos negativos. Probamos el muestreo aleatorio, donde simplemente seleccionamos una cantidad de ejemplos negativos, y el muestreo estratificado, donde aseguramos una representación justa de diferentes fuentes. También examinamos el muestreo basado en clústeres, que utilizó vectores de documentos para agrupar y muestrear ejemplos de manera efectiva.

Evaluando la Clasificación Supervisada

Examinamos varios modelos de codificadores monolingües y multilingües que han sido pre-entrenados en textos alemanes. Para el ajuste fino, mantuvimos los parámetros iguales en todos los modelos. Entrenamos clasificadores que usaron solo URLs y aquellos que combinaron URLs con contenido.

Nuestro análisis reveló que incorporar contenido de las páginas web mejoró significativamente el rendimiento de la clasificación. En general, los clasificadores fueron mejores cuando usaron características tanto de URL como de contenido. En situaciones sin contenido, los clasificadores de URL aún podrían desempeñarse adecuadamente.

Resultados de Rendimiento de Clasificaciones de Cero-shot y Pocos-shot

Además de la clasificación supervisada, también exploramos el rendimiento de los métodos de cero-shot y pocos-shot. Encontramos que ambos enfoques podían ofrecer buenos resultados, siendo el mejor modelo de cero-shot el que logró puntajes impresionantes. Sin embargo, mientras los modelos generativos mostraron promesas, generalmente tuvieron un rendimiento inferior al de los clasificadores ajustados finamente cuando había datos etiquetados disponibles.

Realizando un Análisis Manual de Errores

Para refinar aún más nuestro modelo, realizamos un análisis manual de errores, examinando páginas web mal clasificadas según el clasificador de mejor rendimiento. Al revisar estas malas clasificaciones, identificamos áreas de mejora, como problemas con las etiquetas y el procesamiento que llevaron a categorizaciones incorrectas.

Categorizar varios tipos de errores cometidos por el clasificador, encontramos instancias donde clasificó incorrectamente contenido irrelevante o fue engañado por contenido vago. Reconocimos que distinguir entre la relevancia débil y fuerte del tema puede ser complicado, especialmente cuando se basa en etiquetas a nivel de URL.

Conclusiones y Dirección Futura

En resumen, nuestro estudio comparó modelos de codificadores ajustados finamente con estrategias de aprendizaje en contexto para clasificar contenido relacionado con temas. Nuestros hallazgos sugieren que con unos pocos cientos de ejemplos etiquetados, es posible encontrar efectivamente contenido relacionado con políticas alemanas específicas. Observamos que el modelo de mejor rendimiento alcanzó un cierto nivel de precisión, pero el rendimiento varió según el tema.

El ajuste fino de modelos mostró resultados sólidos cuando se evaluó contra conjuntos de datos etiquetados de alta calidad, pero el rendimiento disminuyó en datos de menor calidad. Sin embargo, los clasificadores que usaron contenido de páginas web superaron generalmente a aquellos que usaron solo URLs. Nuestro análisis destacó la importancia de refinar nuestros datos de entrenamiento e introducir mejores métodos para distinguir contenido relevante.

Para trabajos futuros, mejorar la precisión podría implicar un mejor filtrado de muestras irrelevantes y crear un proceso de entrenamiento más robusto. También vemos valor en probar métodos de prompting avanzados para mejorar el razonamiento en modelos generativos. Finalmente, reconocemos la necesidad de etiquetado basado en contenido preciso para abordar sesgos presentes en los datos a nivel de URL.

En conclusión, aunque nuestra investigación demuestra el potencial tanto de métodos de clasificación tradicionales como de los más nuevos, aún queda una oportunidad significativa para mejoras adicionales en el campo.

Fuente original

Título: Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data

Resumen: Researchers in the political and social sciences often rely on classification models to analyze trends in information consumption by examining browsing histories of millions of webpages. Automated scalable methods are necessary due to the impracticality of manual labeling. In this paper, we model the detection of topic-related content as a binary classification task and compare the accuracy of fine-tuned pre-trained encoder models against in-context learning strategies. Using only a few hundred annotated data points per topic, we detect content related to three German policies in a database of scraped webpages. We compare multilingual and monolingual models, as well as zero and few-shot approaches, and investigate the impact of negative sampling strategies and the combination of URL & content-based features. Our results show that a small sample of annotated data is sufficient to train an effective classifier. Fine-tuning encoder-based models yields better results than in-context learning. Classifiers using both URL & content-based features perform best, while using URLs alone provides adequate results when content is unavailable.

Autores: Julian Schelb, Roberto Ulloa, Andreas Spitz

Última actualización: 2024-07-23 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.16516

Fuente PDF: https://arxiv.org/pdf/2407.16516

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Enlaces de referencia

Artículos similares