Nuevo conjunto de datos mejora los modelos de lenguaje para conversaciones de varios turnos
El conjunto de datos M2Lingual mejora las capacidades de seguir instrucciones en varios idiomas.
― 7 minilectura
Tabla de contenidos
Los modelos de lenguaje grande (LLMs) se han vuelto herramientas populares para muchas tareas relacionadas con el lenguaje, como responder preguntas, resumir textos y entender diferentes idiomas. Estos modelos funcionan mucho mejor cuando se entrenan con una variedad de instrucciones, especialmente en diferentes idiomas. Sin embargo, la mayoría de los conjuntos de datos de entrenamiento se enfocan principalmente en idiomas que tienen muchos recursos, como el inglés, mientras que se le da menos atención a los idiomas con menos recursos.
Este artículo habla sobre un nuevo conjunto de datos que busca mejorar la forma en que los LLMs entienden y siguen instrucciones en muchos idiomas. El conjunto de datos está diseñado específicamente para manejar Conversaciones de múltiples turnos, lo que significa que puede soportar intercambios entre un usuario y el modelo. También abarca una amplia gama de idiomas y tareas, lo que lo hace más versátil.
Antecedentes
El ajuste fino de instrucciones (IFT) es un proceso usado para enseñar a los LLMs cómo seguir las instrucciones dadas por los usuarios. Esto es crucial para hacer que estos modelos sean útiles en aplicaciones del mundo real. Aunque ha habido esfuerzos para crear conjuntos de datos de IFT efectivos, la mayoría de ellos se enfocan en idiomas de alto recurso. Esto deja a muchos idiomas de bajo recurso mal representados en el entrenamiento, lo que limita la capacidad de los modelos para desempeñarse bien en esos idiomas.
Los conjuntos de datos multilingües existentes se dividen en tres categorías principales: generados por humanos, generados por humanos y AI, y traducidos por máquina. Los conjuntos de datos generados por humanos pueden ser muy diversos, pero también son costosos y llevan mucho tiempo en crearlos. Los conjuntos generados por humanos y AI son menos intensivos en recursos, pero pueden tener problemas como preocupaciones de privacidad y datos de baja calidad. Los conjuntos de datos traducidos por máquina ahorran tiempo, pero a menudo no logran capturar las características únicas de cada idioma.
Muchos conjuntos de datos se enfocan en conversaciones de dominio abierto, lo que significa que pueden no ser adecuados para tareas basadas en instrucciones. Esto lleva a un entrenamiento menos efectivo para modelos que necesitan seguir instrucciones específicas en varios idiomas.
El Nuevo Conjunto de Datos
Para abordar estas limitaciones, se ha creado un nuevo conjunto de datos que es completamente sintético, lo que significa que fue generado enteramente por algoritmos en lugar de esfuerzo humano. Este conjunto de datos se llama M2Lingual y está diseñado para soportar instrucciones de múltiples turnos en muchos idiomas.
El proceso de creación de este conjunto de datos involucró dos pasos clave. El primer paso fue reunir un conjunto diverso de ejemplos de conjuntos de datos existentes que tenían Pares de instrucciones-respuestas de alta calidad. El segundo paso fue aplicar un conjunto especial de reglas (taxonomía) para transformar estos ejemplos en instrucciones más complejas y desafiantes. Esto resultó en un conjunto de datos que contiene 182,000 pares de instrucciones-respuestas en 70 idiomas diferentes.
Selección de Semillas
El conjunto de datos comienza con ejemplos semilla tomados de dos fuentes principales. Una fuente es un conjunto de datos llamado Aya, que contiene pares de instrucciones-respuestas generales creados por hablantes nativos. La segunda fuente es otra parte de Aya, que incluye ejemplos de varias tareas de lengua. Estas semillas ayudan a proporcionar una buena base para construir conjuntos de instrucciones más complejas.
Los ejemplos semilla se seleccionan cuidadosamente para asegurarse de que representen una amplia variedad de temas y tareas. Al seleccionar ejemplos de ambas fuentes, el conjunto de datos se beneficia de las fortalezas de cada una, lo que lleva a un conjunto de entrenamiento más completo.
Creando Pares de Instrucción-Respuesta
Una vez seleccionadas las semillas, pasan por un proceso de transformación para crear nuevos pares de instrucción-respuesta. Esto implica aplicar un conjunto de reglas diseñadas para mejorar la complejidad y riqueza de las instrucciones. Este paso es crucial porque permite la generación de nuevas instrucciones que son no solo más desafiantes, sino que también capturan los aspectos únicos de diferentes idiomas.
El proceso de transformación incorpora diferentes tipos de instrucciones que ayudan a crear una interacción más detallada y atractiva. Al hacer esto, el conjunto de datos puede producir instrucciones que están más adecuadas para manejar conversaciones complejas.
Conversaciones de Múltiples Turnos
Después de generar los nuevos pares de instrucción-respuesta, el siguiente paso es crear conversaciones de múltiples turnos. Esto es importante porque las conversaciones en la vida real a menudo implican intercambios, y los modelos necesitan poder manejar estas interacciones de manera efectiva.
El aspecto de múltiples turnos se introduce a través de un conjunto de variaciones de diálogo que permiten a la IA responder de una manera que se siente natural y atractiva. Incluye varios tipos de preguntas y respuestas de seguimiento, asegurando que las conversaciones fluyan suavemente y aborden varias interacciones potenciales.
Evaluación
Una vez creado el conjunto de datos, es importante evaluar qué tan bien se desempeña en tareas del mundo real. El nuevo conjunto de datos se prueba usando varios benchmarks multilingües, evaluando su capacidad para manejar tareas como respuesta a preguntas, resumen y clasificación. El objetivo es comparar el rendimiento de los modelos entrenados con este conjunto de datos frente a aquellos entrenados con otros conjuntos de datos existentes.
Los resultados iniciales muestran que los modelos entrenados con M2Lingual superan significativamente a los entrenados con conjuntos de datos tradicionales, especialmente en tareas que involucran idiomas de bajo recurso. Esto demuestra la efectividad del conjunto de datos para mejorar la capacidad de los LLMs para seguir instrucciones en diferentes idiomas.
Impacto en Idiomas de Bajo Recurso
Uno de los principales objetivos del nuevo conjunto de datos es mejorar el rendimiento de los modelos de lenguaje en idiomas de bajo recurso. Estos idiomas a menudo carecen de los extensos datos de entrenamiento disponibles para idiomas de alto recurso, lo que lleva a un rendimiento más pobre de los modelos.
El conjunto de datos M2Lingual incluye una representación equilibrada de pares de instrucción-respuesta para idiomas de bajo recurso, asegurando que estos idiomas reciban la atención que merecen. Esto ayuda a hacer que los LLMs sean más accesibles y utilizables para los hablantes de estos idiomas, promoviendo la inclusión en la tecnología lingüística.
Conclusión
La introducción del conjunto de datos M2Lingual marca un paso significativo en mejorar la capacidad de los modelos de lenguaje para seguir instrucciones en múltiples idiomas. Al enfocarse en conversaciones de múltiples turnos y abordar las deficiencias de los conjuntos de datos existentes, este nuevo recurso mejora el rendimiento general de los LLMs, especialmente en idiomas menos representados.
A medida que la tecnología del lenguaje continúa evolucionando, la creación de conjuntos de datos como M2Lingual es esencial para garantizar que todos los idiomas, independientemente de su disponibilidad de recursos, se beneficien de los avances en inteligencia artificial. Este trabajo abre nuevas oportunidades para que más personas interactúen con sistemas impulsados por IA, enriqueciendo en última instancia la interacción entre humanos y máquinas.
Título: M2Lingual: Enhancing Multilingual, Multi-Turn Instruction Alignment in Large Language Models
Resumen: Instruction finetuning (IFT) is critical for aligning Large Language Models (LLMs) to follow instructions. While many effective IFT datasets have been introduced recently, they predominantly focus on high-resource languages like English. To better align LLMs across a broad spectrum of languages and tasks, we propose a fully synthetic, novel taxonomy (Evol) guided Multilingual, Multi-turn instruction finetuning dataset, called M2Lingual. It is constructed by first selecting a diverse set of seed examples and then utilizing the proposed Evol taxonomy to convert these seeds into complex and challenging multi-turn instructions. We demonstrate the effectiveness of M2Lingual by training LLMs of varying sizes and showcasing the enhanced performance across a diverse set of languages. We contribute the 2 step Evol taxonomy with the guided generation code: https://github.com/ServiceNow/M2Lingual, as well as the first fully synthetic, general and task-oriented, multi-turn, multilingual dataset built with Evol - M2Lingual: https://huggingface.co/datasets/ServiceNow-AI/ M2Lingual - containing 182K total IFT pairs, covering 70 languages and 17+ NLP tasks.
Autores: Rishabh Maheshwary, Vikas Yadav, Hoang Nguyen, Khyati Mahajan, Sathwik Tejaswi Madhusudhan
Última actualización: 2024-06-28 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2406.16783
Fuente PDF: https://arxiv.org/pdf/2406.16783
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://choosealicense.com/licenses/apache-2.0/
- https://openai.com/policies/terms-of-use/
- https://huggingface.co/datasets/ServiceNow-AI/M2Lingual
- https://huggingface.co/api/datasets/ServiceNow-AI/M2Lingual/croissant
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://github.com/lcw99/evolve-instruct/blob/main/evolve.py
- https://sharegpt.com/
- https://github.com/OpenAccess-AI-Collective/axolotl
- https://ctan.org/pkg/pifont
- https://github.com/ServiceNow/M2Lingual