Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Construyendo un conjunto de datos para lenguas africanas en PLN

Creando un conjunto de datos completo para clasificar temas de noticias en lenguas africanas.

― 6 minilectura


Conjunto de datos de PLNConjunto de datos de PLNpara lenguas africanas.africanos.capacidades de PLN para idiomasNuevo conjunto de datos mejora las
Tabla de contenidos

Los Idiomas africanos han quedado fuera de gran parte del mundo tecnológico, sobre todo en Procesamiento de Lenguaje Natural (NLP). No hay suficientes Conjuntos de datos para apoyar varias tareas para estos idiomas. Aunque hay algunos conjuntos de datos para idiomas específicos, solo unos pocos cubren tareas importantes como identificar nombres o traducir. Este documento busca solucionar esto creando un nuevo conjunto de datos para clasificar temas de noticias en 16 idiomas hablados en África.

Creando un Nuevo Conjunto de Datos

El objetivo de este proyecto es reunir un conjunto de datos de artículos de noticias que ayuden a clasificar temas en varios idiomas africanos. El conjunto incluye idiomas como inglés y francés junto con otros idiomas locales. El equipo produjo este conjunto de datos recopilando artículos de noticias de varias fuentes como la BBC y Voice of America. Juntaron entre 2,000 y 12,000 artículos para cada idioma según la disponibilidad.

Para clasificar estos artículos, se enfocaron en seis temas principales: negocios, entretenimiento, salud, política, deportes y tecnología. Querían asegurarse de que hubiera suficientes artículos para cada categoría, buscando alrededor de 3,000 artículos en total. También crearon etiquetas para artículos que no encajaban en estas categorías.

Proceso de Anotación de Datos

Un grupo de voluntarios de la comunidad Masakhane ayudó a etiquetar los artículos en las categorías elegidas. El proceso de etiquetado se llevó a cabo en dos etapas. En la primera etapa, los anotadores etiquetaron los primeros 200 artículos según su comprensión. En la segunda etapa, usaron un modelo entrenado para hacer predicciones sobre el resto de los artículos, que luego fueron corregidos por los anotadores. Este proceso hizo que el etiquetado fuera más rápido y eficiente.

Medición de la Calidad de la Anotación

Para asegurarse de que el etiquetado fuera confiable, el equipo calculó un puntaje de acuerdo entre los anotadores. Encontraron que el acuerdo era alto, indicando que el etiquetado era consistente entre diferentes anotadores.

Entendiendo la Clasificación de Temas de Noticias

La clasificación de temas de noticias es un tipo de clasificación de texto que implica ordenar artículos de noticias en diferentes categorías. Se ha utilizado en varios modelos de aprendizaje automático para entender qué tan bien pueden realizar tareas relacionadas con la determinación del tema de un artículo de noticias. Estas tareas son importantes para evaluar qué tan bien los sistemas de aprendizaje automático pueden manejar diferentes tipos de datos.

Modelos Base

El equipo entrenó varios modelos para establecer una línea base para evaluar su nuevo conjunto de datos. Utilizaron tres modelos clásicos de aprendizaje automático: Naive Bayes, perceptrón multicapa y XGBoost. También ajustaron varios modelos de lenguaje para observar qué tan bien podrían clasificar los artículos. Los resultados mostraron que los modelos de aprendizaje automático tendían a tener un rendimiento peor que los modelos de lenguaje ajustados en la mayoría de los casos.

Resultados del Experimento

Los resultados mostraron que los modelos más grandes funcionaron mejor, especialmente cuando fueron entrenados con una mayor variedad de idiomas. Descubrieron que algunos modelos, como AfroXLMR, lograron los mejores resultados porque estaban más familiarizados con los idiomas que se estaban analizando.

El rendimiento varió dependiendo del idioma y la cantidad de datos de entrenamiento disponibles. Para algunos idiomas que no estaban bien representados en el entrenamiento, los modelos de aprendizaje automático tradicionales superaron a los modelos de lenguaje.

Aprendizaje Zero-Shot y Few-Shot

Además de los métodos de entrenamiento tradicionales, el equipo exploró métodos de aprendizaje zero-shot y few-shot. El aprendizaje zero-shot significa que el modelo hace predicciones en un idioma que nunca ha visto antes. El aprendizaje few-shot se refiere a entrenar modelos usando solo un pequeño número de ejemplos. Estos enfoques pueden ahorrar tiempo y recursos, siendo críticos para idiomas con menos datos disponibles.

Métodos para Aprendizaje Zero-Shot y Few-Shot

El equipo usó varios métodos para implementar estas técnicas de aprendizaje. Experimentaron con diferentes estrategias como Modelos de Lenguaje de Prompting, ajuste fino eficiente en parámetros cruzados y entrenamiento que explota patrones. Estas estrategias tenían como objetivo mejorar cuánto podían trabajar los modelos con datos limitados.

Evaluación de Métodos Zero-Shot

Al evaluar qué tan bien funcionaron los modelos en configuraciones zero-shot, el equipo encontró que la transferencia cruzada de idiomas -usar conocimiento de un idioma para mejorar predicciones en otro- dio resultados exitosos. Algunas combinaciones de idiomas funcionaron mejor que otras. Por ejemplo, usar swahili como idioma fuente resultó más efectivo que Hausa al hacer predicciones para inglés o francés.

Evaluación de Métodos Few-Shot

Para el aprendizaje few-shot, el equipo examinó qué tan bien los modelos podían clasificar artículos con solo unos pocos ejemplos. Encontraron que los modelos funcionaron mejor que los métodos de entrenamiento tradicionales para la mayoría de los idiomas, especialmente a medida que aumentaba el número de ejemplos. Esto mostró la importancia de tener incluso un pequeño número de ejemplos etiquetados para guiar el proceso de aprendizaje del modelo.

Resumen de Hallazgos Clave

En resumen, crear un conjunto de datos para clasificar temas de noticias en idiomas africanos llena un vacío significativo en la investigación de NLP. Los experimentos mostraron que con las técnicas adecuadas, es posible lograr resultados impresionantes en escenarios zero-shot y few-shot. Estos hallazgos fomentan más investigación y desarrollo en el campo para idiomas de pocos recursos.

Direcciones Futuras

El documento destaca la necesidad de más conjuntos de datos en idiomas africanos y busca expandir este trabajo. Los esfuerzos futuros se centrarán en incluir más idiomas y aplicar estos hallazgos a otras tareas de NLP, como el análisis de sentimientos. La esperanza es que estos avances apoyen el crecimiento de tecnologías de NLP que sean más inclusivas para todos los idiomas.

Conclusión

La creación del conjunto de datos de clasificación de temas de noticias representa un paso importante para extender las capacidades del aprendizaje automático a los idiomas africanos. Los resultados demuestran una base sólida para una mayor exploración y refinamiento de métodos de NLP adaptados a estos idiomas. Al continuar este trabajo, los investigadores pueden ayudar a asegurar que todas las voces estén representadas en el paisaje digital.

Fuente original

Título: MasakhaNEWS: News Topic Classification for African languages

Resumen: African languages are severely under-represented in NLP research due to lack of datasets covering several NLP tasks. While there are individual language specific datasets that are being expanded to different tasks, only a handful of NLP tasks (e.g. named entity recognition and machine translation) have standardized benchmark datasets covering several geographical and typologically-diverse African languages. In this paper, we develop MasakhaNEWS -- a new benchmark dataset for news topic classification covering 16 languages widely spoken in Africa. We provide an evaluation of baseline models by training classical machine learning models and fine-tuning several language models. Furthermore, we explore several alternatives to full fine-tuning of language models that are better suited for zero-shot and few-shot learning such as cross-lingual parameter-efficient fine-tuning (like MAD-X), pattern exploiting training (PET), prompting language models (like ChatGPT), and prompt-free sentence transformer fine-tuning (SetFit and Cohere Embedding API). Our evaluation in zero-shot setting shows the potential of prompting ChatGPT for news topic classification in low-resource African languages, achieving an average performance of 70 F1 points without leveraging additional supervision like MAD-X. In few-shot setting, we show that with as little as 10 examples per label, we achieved more than 90\% (i.e. 86.0 F1 points) of the performance of full supervised training (92.6 F1 points) leveraging the PET approach.

Autores: David Ifeoluwa Adelani, Marek Masiak, Israel Abebe Azime, Jesujoba Alabi, Atnafu Lambebo Tonja, Christine Mwase, Odunayo Ogundepo, Bonaventure F. P. Dossou, Akintunde Oladipo, Doreen Nixdorf, Chris Chinenye Emezue, sana al-azzawi, Blessing Sibanda, Davis David, Lolwethu Ndolela, Jonathan Mukiibi, Tunde Ajayi, Tatiana Moteu, Brian Odhiambo, Abraham Owodunni, Nnaemeka Obiefuna, Muhidin Mohamed, Shamsuddeen Hassan Muhammad, Teshome Mulugeta Ababu, Saheed Abdullahi Salahudeen, Mesay Gemeda Yigezu, Tajuddeen Gwadabe, Idris Abdulmumin, Mahlet Taye, Oluwabusayo Awoyomi, Iyanuoluwa Shode, Tolulope Adelani, Habiba Abdulganiyu, Abdul-Hakeem Omotayo, Adetola Adeeko, Abeeb Afolabi, Anuoluwapo Aremu, Olanrewaju Samuel, Clemencia Siro, Wangari Kimotho, Onyekachi Ogbu, Chinedu Mbonu, Chiamaka Chukwuneke, Samuel Fanijo, Jessica Ojo, Oyinkansola Awosan, Tadesse Kebede, Toadoum Sari Sakayo, Pamela Nyatsine, Freedmore Sidume, Oreen Yousuf, Mardiyyah Oduwole, Tshinu Tshinu, Ussen Kimanuka, Thina Diko, Siyanda Nxakama, Sinodos Nigusse, Abdulmejid Johar, Shafie Mohamed, Fuad Mire Hassan, Moges Ahmed Mehamed, Evrard Ngabire, Jules Jules, Ivan Ssenkungu, Pontus Stenetorp

Última actualización: 2023-09-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.09972

Fuente PDF: https://arxiv.org/pdf/2304.09972

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares