Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Melhorando a Tradução Automática com Feedback de Modelos de Linguagem

Esse artigo fala sobre como melhorar a qualidade da tradução automática usando modelos de linguagem e feedback.

― 7 min ler


Os LLMs Melhoram aOs LLMs Melhoram aQualidade da Traduçãoeficaz.tradução automática através de feedbackModelos de linguagem melhoram a
Índice

Tradução Automática (MT) é sobre traduzir texto de um idioma pra outro usando tecnologia. Isso já existe faz um tempinho, mas a gente ainda tá procurando maneiras de melhorar. Recentemente, modelos de linguagem grandes (LLMs), como o ChatGPT, começaram a mostrar que podem ser legais nessa área, mas ainda não tomaram conta totalmente dos métodos tradicionais que são supervisionados.

Esse artigo fala sobre como a gente pode usar LLMs pra melhorar a tradução automática, guiando eles com Feedback sobre a qualidade das traduções. O feedback é baseado em um sistema chamado Multidimensional Quality Metric (MQM) que ajuda a identificar problemas nas traduções.

Usando Modelos de Linguagem para Pós-edição

A ideia principal aqui é usar os pontos fortes tanto dos LLMs quanto dos sistemas de tradução automática supervisionados. A gente quer guiar os LLMs pra melhorar automaticamente traduções que podem não ser muito boas. Fazemos isso dando feedback sobre a qualidade da tradução. Esse feedback ajuda os LLMs a entender o que precisa ser mudado ou melhorado.

Na nossa pesquisa, a gente focou em um tipo específico de modelo de linguagem chamado LLaMA-2. Experimentamos diferentes maneiras de provocar o modelo, que significa dar instruções específicas pra ele seguir. Também ajustamos o modelo, que significa que adaptamos o treinamento dele pra ajudar ele a entender melhor o feedback que recebeu.

Tipos de Feedback

A gente categorizou o feedback em três grupos com base em quão detalhado ele é:

  1. Feedback Genérico: Esse é um feedback básico sem detalhes específicos. O LLM é simplesmente pedido pra melhorar a tradução.
  2. Feedback Baseado em Pontuação: Isso dá uma única pontuação que representa a qualidade geral da tradução. Ajuda o LLM a saber se a tradução é boa ou ruim.
  3. Feedback Detalhado: Esse feedback entra em detalhes sobre erros na tradução, incluindo onde estão os erros, que tipo de erros são e quão graves eles são.

O feedback detalhado pode vir de anotações humanas ou ferramentas de avaliação automáticas. Usar esse feedback detalhado pode ajudar os LLMs a fazerem melhorias melhores nas traduções.

O Processo de Pós-Edição

Na nossa abordagem, a gente dá pro LLM uma frase fonte (o texto original), uma saída de MT (o texto traduzido) e um feedback. Depois, checamos se o LLM consegue melhorar a tradução de maneira confiável. Nosso método revisita a ideia de pós-edição de MT focando em quão bem os LLMs podem usar feedback externo ao invés de apenas depender de feedback automático ou gerado por eles mesmos.

A gente também queria ver se modelos menores (com menos parâmetros) ainda poderiam ter um bom desempenho na pós-edição. Modelos maiores costumam exigir mais recursos e são mais caros. Acreditamos que encontrar maneiras de usar modelos menores pode tornar essa tecnologia mais acessível.

Explorando Técnicas

Nas nossas experiências com os modelos LLaMA-2, testamos como diferentes estratégias de provocação funcionavam quando combinadas com feedback. Olhamos para pares de idiomas, incluindo chinês-inglês, inglês-alemão e inglês-russo. Nossos testes mostraram que fazer os LLMs melhorarem a MT com feedback levou a pontuações melhores em várias métricas de qualidade de tradução, como TER (Taxa de Edição de Tradução), BLEU e COMET.

Enquanto o feedback detalhado nem sempre mostrava benefícios claros, descobrimos que ajustar o LLM ajudava ele a usar feedback detalhado de maneira mais eficaz e melhorava a qualidade da tradução, como mostrado por avaliações automáticas e avaliações humanas.

Métricas de Qualidade da Tradução Automática

Pra avaliar o sucesso dos nossos métodos, usamos várias métricas. As pontuações BLEU medem quantas palavras em uma tradução coincidem com uma tradução referência. A TER calcula quantas edições são necessárias pra fazer uma tradução coincidir com uma referência. A COMET é uma métrica mais nova que usa modelos pra julgar a qualidade da tradução com base na compreensão humana.

Através das nossas experiências, descobrimos que a habilidade do modelo LLaMA-2 de seguir instruções e responder ao feedback contribuiu pra melhores resultados de tradução.

Trabalhos Relacionados em Tradução Automática

A anotação de erros de tradução automática se tornou uma área importante de foco. Pesquisadores estão se afastando de simplesmente dar uma pontuação pra uma tradução. Em vez disso, eles fornecem feedback que destaca erros específicos, ajudando a melhorar os sistemas de tradução automática.

Trabalhos passados olharam pra refinar traduções usando LLMs e como esses modelos poderiam responder ao feedback. No entanto, grande parte dessas pesquisas anteriores focou em modelos maiores e proprietários. Nosso trabalho visa mostrar que modelos menores e open-source também podem ter bons resultados em tarefas de pós-edição.

Diferentes Estratégias de Orientação

A gente investigou duas principais estratégias pra guiar LLMs na edição de saídas de MT com anotações de erro:

  1. Provocação: Esse método envolve dar pro LLM um prompt específico pra seguir. Experimentamos diferentes tipos de feedback e como eles afetaram o desempenho do LLM.
  2. Ajuste fino: Nesse contexto, ajustamos o treinamento do LLM pra ajudar ele a integrar melhor o feedback e melhorar as traduções. Testamos o ajuste fino tanto em formatos bilíngues quanto multilíngues, permitindo que o modelo aprendesse com múltiplos pares de idiomas simultaneamente.

Experimentos e Descobertas

Realizamos experimentos usando dados da tarefa de tradução automática geral WMT-22. Focamos em três pares de idiomas: chinês-inglês, inglês-alemão e inglês-russo. Cada amostra continha traduções com erros anotados, permitindo que a gente pudesse medir o progresso ao aplicar nossos métodos.

Usamos feedback detalhado de anotações humanas e métricas automáticas. No geral, descobrimos que o ajuste fino do modelo LLaMA-2 melhorou significativamente a qualidade da tradução em comparação com o uso apenas de prompts.

Avaliação Humana da Qualidade da Tradução

A avaliação humana é crucial pra avaliar a qualidade das traduções. Pedimos a anotadores bilíngues que classificassem as traduções geradas pelos nossos modelos ajustados. Eles compararam as traduções iniciais com as produzidas depois da pós-edição.

Os resultados mostraram que as saídas do modelo LLaMA-2 foram avaliadas mais altas em termos de qualidade geral e resolução de erros. No entanto, algumas discrepâncias surgiram, especialmente em casos específicos onde a saída poderia ter sido gramaticalmente correta, mas menos fiel ao significado original.

Analisando Tipos de Erros

Pra entender quão eficaz a pós-edição foi, analisamos os tipos de erros abordados através dos nossos métodos. Categorizamos erros de acordo com diferentes critérios e examinamos quais foram corrigidos com sucesso após fornecer feedback.

No geral, descobrimos que usar feedback, especialmente através do ajuste fino, melhorou o manuseio de erros nas traduções.

Conclusão e Trabalhos Futuros

Em resumo, nossa pesquisa mostra que os LLMs podem melhorar efetivamente a tradução automática com feedback externo. Ao combinar os pontos fortes dos LLMs e sistemas supervisionados, podemos alcançar uma melhor qualidade de tradução mesmo usando modelos menores.

Trabalhos futuros devem explorar como desenhar fluxos de trabalho eficazes pra decidir quando e como pós-editar traduções. Também devemos procurar maneiras de gerar feedback de alta qualidade automaticamente, já que dados anotados por humanos podem ser escassos e caros.

Esse estudo destaca o potencial de usar feedback externo para tradução automática. À medida que continuamos a refinar nossos métodos, podemos tornar essas tecnologias mais eficazes e acessíveis a um público mais amplo.

Fonte original

Título: Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations

Resumo: Machine Translation (MT) remains one of the last NLP tasks where large language models (LLMs) have not yet replaced dedicated supervised systems. This work exploits the complementary strengths of LLMs and supervised MT by guiding LLMs to automatically post-edit MT with external feedback on its quality, derived from Multidimensional Quality Metric (MQM) annotations. Working with LLaMA-2 models, we consider prompting strategies varying the nature of feedback provided and then fine-tune the LLM to improve its ability to exploit the provided guidance. Through experiments on Chinese-English, English-German, and English-Russian MQM data, we demonstrate that prompting LLMs to post-edit MT improves TER, BLEU and COMET scores, although the benefits of fine-grained feedback are not clear. Fine-tuning helps integrate fine-grained feedback more effectively and further improves translation quality based on both automatic and human evaluation.

Autores: Dayeon Ki, Marine Carpuat

Última atualização: 2024-04-11 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.07851

Fonte PDF: https://arxiv.org/pdf/2404.07851

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes