Mejorando la Traducción Automática con Retroalimentación de Modelos de Lenguaje
Este artículo habla sobre cómo mejorar la calidad de la traducción automática usando modelos de lenguaje y retroalimentación.
― 7 minilectura
Tabla de contenidos
La Traducción automática (MT) trata sobre traducir texto de un idioma a otro usando tecnología. Ha estado presente desde hace un tiempo, pero seguimos buscando formas de mejorarla. Últimamente, los modelos de lenguaje grandes (LLMs), como ChatGPT, han empezado a mostrar promesas en este campo, pero aún no han reemplazado completamente los métodos tradicionales que son supervisados.
Este artículo habla de cómo podemos usar LLMs para mejorar la traducción automática dándoles retroalimentación sobre la calidad de las traducciones. La retroalimentación se basa en un sistema llamado Multidimensional Quality Metric (MQM) que ayuda a identificar problemas en las traducciones.
Post-edición
Usando Modelos de Lenguaje paraLa idea principal aquí es usar las fortalezas de los LLMs y los sistemas de MT supervisados. Queremos guiar a los LLMs para que automaticen la mejora de traducciones que tal vez no sean muy buenas. Hacemos esto proporcionándoles retroalimentación sobre la calidad de la traducción. Esta retroalimentación ayuda a los LLMs a entender qué necesita ser cambiado o mejorado.
En nuestra investigación, nos enfocamos en un tipo específico de modelo de lenguaje llamado LLaMA-2. Experimentamos con diferentes formas de darle indicaciones, lo que significa darle instrucciones específicas a seguir. También ajustamos el modelo, lo que significa que modificamos su entrenamiento para ayudarlo a entender mejor la retroalimentación que recibió.
Tipos de Retroalimentación
Categorías de la retroalimentación en tres grupos según lo detallada que sea:
- Retroalimentación Genérica: Es retroalimentación básica sin detalles específicos. Al LLM simplemente se le pide que mejore la traducción.
- Retroalimentación Basada en Puntuaciones: Esto proporciona una única puntuación que representa la calidad general de la traducción. Ayuda al LLM a saber si la traducción es buena o mala.
- Retroalimentación Detallada: Esta retroalimentación entra en detalle sobre los errores en la traducción, incluyendo dónde están los errores, qué tipo de errores son y cuán graves son.
La retroalimentación detallada puede provenir de anotaciones humanas o herramientas de evaluación automáticas. Utilizar esta retroalimentación detallada puede ayudar a los LLMs a realizar mejores mejoras en las traducciones.
El Proceso de Post-edición
En nuestro enfoque, le damos al LLM una oración fuente (el texto original), una salida de MT (el texto traducido) y algo de retroalimentación. Luego, verificamos si el LLM puede mejorar la traducción de manera confiable. Nuestro método revisita la idea de la post-edición de MT al enfocarse en qué tan bien los LLMs pueden usar retroalimentación externa en lugar de simplemente confiar en retroalimentación automática o autogenerada.
También queríamos ver si modelos más pequeños (con menos parámetros) podrían seguir funcionando bien en la post-edición. Los modelos más grandes tienden a requerir más recursos y son más costosos. Creemos que encontrar formas de usar modelos más pequeños puede hacer que esta tecnología sea más accesible.
Explorando Técnicas
En nuestros experimentos con los modelos LLaMA-2, probamos qué tan bien funcionaban diferentes estrategias de indicaciones cuando se combinaban con retroalimentación. Miramos pares de idiomas, incluyendo chino-inglés, inglés-alemán e inglés-ruso. Nuestros tests mostraron que al dar indicaciones a los LLMs para mejorar la MT con retroalimentación se lograron mejores puntuaciones en varias métricas de calidad de traducción, como TER (Tasa de Edición de Traducción), BLEU y COMET.
Aunque la retroalimentación detallada no siempre mostró beneficios claros, encontramos que afinar el LLM ayudó a utilizar la retroalimentación detallada de manera más efectiva y mejoró la calidad de las traducciones, como lo mostraron tanto evaluaciones automáticas como evaluaciones humanas.
Métricas de Calidad de Traducción Automática
Para evaluar el éxito de nuestros métodos, utilizamos varias métricas. Las puntuaciones BLEU miden cuántas palabras en una traducción coinciden con una traducción de referencia. TER calcula cuántas ediciones son necesarias para hacer que una traducción coincida con una referencia. COMET es una métrica más nueva que utiliza modelos para juzgar la calidad de la traducción en función de la comprensión humana.
A través de nuestros experimentos, encontramos que la capacidad del modelo LLaMA-2 de seguir instrucciones y responder a la retroalimentación contribuyó a mejores resultados de traducción.
Trabajo Relacionado en Traducción Automática
La anotación de errores en la traducción automática se ha convertido en un área importante de enfoque. Los investigadores están alejándose de simplemente dar una puntuación a una traducción. En cambio, proporcionan retroalimentación que resalta errores específicos, lo que ayuda a mejorar los sistemas de traducción automática.
Trabajos anteriores exploraron cómo refinar traducciones usando LLMs y cómo estos modelos podrían responder a la retroalimentación. Sin embargo, gran parte de esta investigación anterior se centró en modelos más grandes y patentados. Nuestro trabajo busca mostrar que modelos más pequeños y de código abierto también pueden lograr buenos resultados en tareas de post-edición.
Diferentes Estrategias para la Guía
Investigamos dos estrategias principales para guiar a los LLMs en la edición de salidas de MT con anotaciones de errores:
- Indicación: Este método implica darle al LLM una indicación específica a seguir. Experimentamos con diferentes tipos de retroalimentación y cómo afectaban el rendimiento del LLM.
- Ajuste fino: En este contexto, ajustamos el entrenamiento del LLM para ayudarlo a integrar mejor la retroalimentación y mejorar las traducciones. Probamos el ajuste fino en formatos bilingües y multilingües, permitiendo que el modelo aprenda de múltiples pares de idiomas simultáneamente.
Experimentos y Hallazgos
Llevamos a cabo experimentos usando datos de la tarea de traducción automática general WMT-22. Nos enfocamos en tres pares de idiomas: chino-inglés, inglés-alemán e inglés-ruso. Cada muestra contenía traducciones con errores anotados, lo que nos permitió medir el progreso al aplicar nuestros métodos.
Utilizamos retroalimentación detallada de anotaciones humanas y métricas automáticas. En general, encontramos que afinar el modelo LLaMA-2 mejoró significativamente la calidad de la traducción en comparación con usar solo indicaciones.
Evaluación Humana de la Calidad de Traducción
La evaluación humana es crucial para evaluar la calidad de las traducciones. Pedimos a anotadores bilingües que calificaran las traducciones generadas por nuestros modelos ajustados. Compararon las traducciones iniciales con las producidas después de la post-edición.
Los resultados mostraron que las salidas del modelo LLaMA-2 fueron calificadas más alto en términos de calidad general y resolución de errores. Sin embargo, surgieron algunas discrepancias, especialmente en casos específicos donde la salida podría haber sido gramaticalmente correcta pero menos fiel al significado original.
Análisis de Tipos de Errores
Para entender qué tan efectiva fue la post-edición, analizamos los tipos de errores tratados a través de nuestros métodos. Categorizar errores según diferentes criterios y examinamos cuáles fueron solucionados exitosamente después de proporcionar retroalimentación.
En general, encontramos que usar retroalimentación, especialmente a través del ajuste fino, mejoró el manejo de errores en las traducciones.
Conclusión y Trabajo Futuro
En resumen, nuestra investigación muestra que los LLMs pueden mejorar efectivamente la traducción automática con retroalimentación externa. Al combinar las fortalezas de los LLMs y los sistemas supervisados, podemos lograr una mejor calidad de traducción incluso usando modelos más pequeños.
El trabajo futuro debería explorar cómo diseñar flujos de trabajo efectivos para decidir cuándo y cómo post-editar traducciones. También deberíamos buscar formas de generar retroalimentación de alta calidad automáticamente, ya que los datos anotados por humanos pueden ser escasos y costosos.
Este estudio resalta el potencial de usar retroalimentación externa para la traducción automática. A medida que continuamos refinando nuestros métodos, podemos hacer que estas tecnologías sean más efectivas y accesibles a una audiencia más amplia.
Título: Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations
Resumen: Machine Translation (MT) remains one of the last NLP tasks where large language models (LLMs) have not yet replaced dedicated supervised systems. This work exploits the complementary strengths of LLMs and supervised MT by guiding LLMs to automatically post-edit MT with external feedback on its quality, derived from Multidimensional Quality Metric (MQM) annotations. Working with LLaMA-2 models, we consider prompting strategies varying the nature of feedback provided and then fine-tune the LLM to improve its ability to exploit the provided guidance. Through experiments on Chinese-English, English-German, and English-Russian MQM data, we demonstrate that prompting LLMs to post-edit MT improves TER, BLEU and COMET scores, although the benefits of fine-grained feedback are not clear. Fine-tuning helps integrate fine-grained feedback more effectively and further improves translation quality based on both automatic and human evaluation.
Autores: Dayeon Ki, Marine Carpuat
Última actualización: 2024-04-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.07851
Fuente PDF: https://arxiv.org/pdf/2404.07851
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.