Avances en la Resumen de Idiomas Indios
Un estudio sobre cómo resumir en hindi y gujarati usando modelos multilingües.
― 5 minilectura
Tabla de contenidos
Con el auge de los modelos multilingües, resumir textos en idiomas indios como el hindi y el gujarati se está volviendo más popular. Sin embargo, no hay muchos conjuntos de datos disponibles para estos idiomas. Este artículo habla sobre qué tan bien funcionan diferentes modelos multilingües para resumir textos en idiomas indios.
¿Qué es el Resumen de Textos?
El resumen de textos es el proceso de tomar piezas largas de texto, como artículos, y acortarlos manteniendo los puntos principales. Hay dos formas principales de resumir texto: extractivo y abstractivo.
Resumen Extractivo: Este método saca oraciones del texto original para crear un resumen. Usa partes del texto tal como están, sin hacer cambios.
Resumen Abstractivo: Este método genera un resumen creando nuevas oraciones basadas en el texto original. Ofrece un resumen más parecido al humano pero también es más difícil de hacer.
Este artículo se centra en el resumen abstractivo, particularmente en idiomas indios.
Importancia de Resumir Idiomas Indios
India tiene un gran número de hablantes de idiomas como el hindi y el gujarati, por lo que es esencial tener buenos modelos de resumen para estos idiomas. Trabajos anteriores se han centrado principalmente en inglés, dejando una brecha en el resumen para idiomas indios. Resumir textos en estos idiomas puede ayudar en muchas áreas, incluyendo noticias e investigación.
Modelos Multilingües
Recientemente, se han desarrollado modelos como mBART, MT5 e IndicBART. Estos modelos pueden trabajar con múltiples idiomas, incluyendo varios idiomas indios. El objetivo de usar estos modelos es mejorar el resumen de textos escritos en hindi y gujarati.
Enfoque de la Tarea
La tarea consistió en crear resúmenes para artículos escritos en tres idiomas: inglés, hindi y gujarati. El conjunto de datos proporcionado se dividió en conjuntos de entrenamiento, validación y prueba. El equipo utilizó dos modelos principales, IndicBART y mT5, para sus experimentos.
Descripción de los Datos
El conjunto de datos proporcionado contenía artículos con encabezados, resúmenes y texto en los tres idiomas. Para la validación, dado que no había resúmenes predefinidos disponibles, se usó una parte más pequeña del conjunto de datos de entrenamiento. Después de realizar varios experimentos, se eligieron las versiones con mejor rendimiento para la fase final de prueba.
Modelos Utilizados
IndicBART: Este modelo se centra en once idiomas indios más inglés. Se ha probado en tareas de resumen y traducción y ha mostrado buenos resultados.
mT5: Este modelo se construyó utilizando un conjunto de datos que incluye 101 idiomas. Su diseño es similar a otro modelo llamado T5.
Ambos modelos están construidos con una estructura similar con doce capas.
Aumento de Datos
Para mejorar el rendimiento, el equipo también utilizó aumento de datos. Esto implica aumentar la cantidad de datos de entrenamiento creando más ejemplos. Descubrieron que agregar más datos ayudó a mejorar los resultados de manera significativa.
Configuración de Entrenamiento
El entrenamiento de los modelos se realizó utilizando herramientas como la API de HuggingFace y PyTorch. Los factores clave durante el entrenamiento incluyeron la tasa de aprendizaje y la longitud máxima de las secuencias de entrada y salida. Los modelos se ajustaron durante varias épocas para mejorar su rendimiento.
Resultados de los Experimentos
Los resultados de los experimentos se midieron utilizando un sistema de puntuación llamado ROUGE, que evalúa la calidad de los resúmenes producidos comparándolos con resúmenes de referencia. Los hallazgos se dividieron en dos conjuntos: resultados de validación y resultados de prueba.
Resultados del Conjunto de Validación
El equipo realizó varios experimentos en el conjunto de validación, lo que les ayudó a entender qué tan bien estaban funcionando los modelos. Compiló los resultados en tablas para presentar sus hallazgos de manera clara.
Resultados del Conjunto de Prueba
Después de validar los modelos, se probaron con el conjunto de prueba oficial. Nuevamente, los resultados se compilaron en tablas, mostrando la efectividad de cada modelo y enfoque utilizado durante los experimentos.
Hallazgos Clave
A partir de los resultados, quedó claro que el aumento de datos fue un paso beneficioso. Los modelos funcionaron mejor cuando había más datos disponibles. Al comparar IndicBART y mT5, generalmente IndicBART tuvo mejores resultados para resumir textos.
Conclusión
En este estudio, el equipo buscó resumir idiomas indios utilizando modelos multilingües avanzados. Realizaron varios experimentos con IndicBART y mT5, logrando resultados prometedores. Para hindi y gujarati, se clasificaron bien entre los participantes, mientras que su rendimiento en inglés también fue encomiable. A pesar de algunas limitaciones, como no usar modelos más grandes debido a restricciones de recursos, los hallazgos ofrecen valiosas ideas para el trabajo futuro en el resumen de idiomas indios.
Título: Summarizing Indian Languages using Multilingual Transformers based Models
Resumen: With the advent of multilingual models like mBART, mT5, IndicBART etc., summarization in low resource Indian languages is getting a lot of attention now a days. But still the number of datasets is low in number. In this work, we (Team HakunaMatata) study how these multilingual models perform on the datasets which have Indian languages as source and target text while performing summarization. We experimented with IndicBART and mT5 models to perform the experiments and report the ROUGE-1, ROUGE-2, ROUGE-3 and ROUGE-4 scores as a performance metric.
Autores: Dhaval Taunk, Vasudeva Varma
Última actualización: 2023-03-29 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.16657
Fuente PDF: https://arxiv.org/pdf/2303.16657
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://dhavaltaunk08.github.io//
- https://www.iiit.ac.in/~vv
- https://conceptbase.sourceforge.net/mjf/
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://name.example.com
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq