Avaliação da Qualidade da Tradução Automática ao Longo do Tempo
Um estudo sobre o desempenho de várias métricas para traduções automáticas.
― 8 min ler
Índice
- Contexto e Trabalhos Relacionados
- Como as Métricas Funcionam
- Como as Pontuações das Métricas Mudam com o Tempo
- Precisão das Métricas em Classificar Sistemas de Tradução
- A Confiabilidade das Métricas Depende da Qualidade do Sistema?
- Impacto das Referências Sintéticas
- Conclusão
- Fonte original
- Ligações de referência
A gente criou uma coleção de dados que inclui traduções feitas por sistemas de Tradução automática ao longo de seis anos. Essa coleção cobre traduções em 12 idiomas diferentes. A ideia principal é ver como diferentes métricas se saem na hora de medir a qualidade das traduções feitas por máquinas.
Geralmente, os pesquisadores olham como as métricas automáticas, que servem pra avaliar traduções, se alinham com opiniões humanas. Mas, pegar opiniões humanas costuma ser caro e demorado. Além disso, os estudos comuns costumam usar só alguns sistemas de tradução, o que dificulta tirar conclusões mais amplas. Nessa pesquisa, decidimos seguir um caminho diferente, usando dados de sistemas de tradução comercial ao longo de um período maior.
A gente coletou traduções automáticas toda semana, usando o Google Tradutor, e supomos que esses sistemas melhoram com o tempo. Comparando as traduções de anos anteriores com as mais recentes, dá pra ver como as métricas avaliam a qualidade das traduções.
Nossos achados apoiam muitos estudos anteriores na área de métricas de tradução automática. Por exemplo, descobrimos que métricas baseadas em tecnologia de rede neural mostraram uma conexão muito mais forte com os julgamentos humanos do que métricas mais antigas, que não usam rede neural. A gente viu que essas Métricas Neurais consistentemente mostraram melhorias ao longo do tempo e avaliaram a qualidade das traduções de forma mais precisa em comparação com métricas não neurais.
Em estudos anteriores, foi mostrado que a conexão entre métricas e avaliações humanas fica mais fraca quando se foca apenas nos melhores sistemas de tradução. Porém, estudos anteriores tinham um número limitado de sistemas em consideração, o que torna difícil confirmar essa ideia completamente. No nosso estudo, usamos uma amostra maior e confirmamos que, à medida que o desempenho dos sistemas de tradução melhora, a correlação entre as pontuações das métricas e os julgamentos humanos tende a diminuir.
Curiosamente, descobrimos que referências de tradução artificial de alta qualidade (criada por máquinas) levaram a uma relação mais forte entre as pontuações das métricas e as avaliações humanas em comparação com traduções feitas por humanos. Analisamos esse efeito para três pares de idiomas e notamos que os resultados foram comparáveis.
Contexto e Trabalhos Relacionados
Métricas que foram treinadas em avaliações humanas têm mostrado muito progresso em combinar bem com esses julgamentos. Pesquisa recente sugere que essas métricas também podem ser aplicadas a novas áreas e desafios.
Em estudos passados, foi observado que a correlação entre métricas e pontuações humanas tende a diminuir com menos sistemas de tradução de topo. Investigações adicionais indicaram que tamanhos de amostra pequenos poderiam levar a essa instabilidade. Em uma tarefa compartilhada recente, traduções humanas receberam classificações surpreendentemente baixas, o que levou à ideia de usar referências artificiais como uma alternativa útil.
Em vez de comparar as métricas apenas com as avaliações humanas, alguns pesquisadores exploraram como as métricas se alinham com os resultados de tarefas que dependem da qualidade das traduções. Nosso estudo também analisa as métricas baseado em como elas classificam traduções mais novas.
Os dados originais usados para nosso estudo vêm de frases em inglês que foram traduzidas para alemão, italiano, espanhol e chinês, focando principalmente em conteúdo de notícias. Cada idioma teve 1.371 frases. Coletamos traduções semanalmente de maio de 2018 a março de 2024 em vários pares de idiomas. Testes iniciais mostraram que havia uma semelhança notável entre traduções profissionais e as saídas iniciais dos sistemas. Devido a essa descoberta, decidimos excluir o espanhol da análise, ficando com 12 pares de idiomas.
Como as Métricas Funcionam
Diferentes métricas têm formas únicas de avaliar traduções. Por exemplo, a BLEU verifica quantas palavras ou frases na tradução combinam com as traduções de referência. A chrF olha para as combinações de caracteres. Outras métricas, como a BERTScore, usam modelos avançados pra comparar o significado das traduções e não só as palavras.
Algumas métricas foram treinadas em pontuações humanas pra oferecer avaliações melhores. Essas incluem COMET-20, UniTE, COMET-22, entre outras. A gente usou vários modelos pra avaliar traduções e comparar suas pontuações com os Rankings de qualidade de tradução ao longo do tempo.
Como as Pontuações das Métricas Mudam com o Tempo
A gente esperava que, conforme os sistemas de tradução melhorassem, as pontuações das métricas refletissem essas mudanças. Pra investigar isso, analisamos como as pontuações flutuaram em pares de idiomas específicos e notamos que, no geral, muitas métricas mostraram uma tendência de alta nesses pares.
Pra medir quão consistentes essas tendências de alta eram, usamos um método estatístico chamado correlação de Spearman. Métricas que mostraram correlações mais altas foram vistas como mais confiáveis em refletir a qualidade geral dos sistemas. Nossos achados indicaram que métricas como a COMET-22 e outras mostraram forte correlação na maioria dos pares de idiomas.
Precisão das Métricas em Classificar Sistemas de Tradução
No nosso trabalho, avaliamos quão bem as métricas conseguiam classificar sistemas mais novos em relação aos mais antigos. A gente supôs que traduções mais novas são geralmente superiores às mais antigas, então calculamos a precisão baseado em quantas vezes as métricas concordaram com o ranking esperado.
Analisamos pares de sistemas que foram desenvolvidos em um período mais curto pra evitar superestimar a confiabilidade das métricas. Isso deu uma visão mais clara de quão bem as métricas desempenharam na distinção entre a qualidade de diferentes sistemas.
Nossos resultados indicaram que métricas treinadas se saíram melhor no geral em comparação com métricas não treinadas. Entre todas as métricas, a COMET-22 teve a maior precisão na classificação dos sistemas de tradução. Métricas mais superficiais, como a chrF, foram melhor que a BLEU, com a chrF alcançando a melhor precisão para traduções em inglês.
A Confiabilidade das Métricas Depende da Qualidade do Sistema?
A gente investigou a ideia de que, conforme os sistemas de tradução melhoram, a confiabilidade das métricas pode cair. Nossa amostra maior permitiu que explorássemos essa questão mais a fundo. Vimos vários cenários para diferentes métricas e percebemos que as tendências variavam.
Por exemplo, em um par de idiomas, métricas treinadas mostraram melhorias ao longo do tempo, enquanto métricas mais superficiais não. Em muitos casos, notamos uma tendência de queda na confiabilidade em vários pares de idiomas.
Impacto das Referências Sintéticas
Pra avaliar melhor como as métricas se saíram, geramos referências sintéticas usando outro sistema de tradução automática. Analisamos essas referências sintéticas para três pares de idiomas específicos e comparamos seu impacto nas métricas de avaliação.
Os achados gerais mostraram que usar referências sintéticas melhorou a precisão das métricas nos pares de idiomas analisados. Isso sugere que referências artificiais podem ser úteis na avaliação da qualidade da tradução.
Conclusão
Através da nossa investigação, confirmamos muitas observações anteriores sobre métricas de tradução automática. Nosso conjunto de dados, que inclui vários pares de idiomas, fornece evidências mais fortes sobre a relação entre qualidade da tradução e confiabilidade das métricas do que conjuntos de dados passados.
A gente incentiva outros pesquisadores a usarem nosso conjunto de dados para estudos adicionais sobre métricas de tradução automática ou pra examinar como a qualidade da tradução muda ao longo do tempo. Nossa suposição de que sistemas mais novos são geralmente melhores que os mais antigos é razoável, mas pode não se aplicar sempre.
Em trabalhos futuros, planejamos explorar o desempenho de métricas de avaliação mais novas que utilizam grandes modelos de linguagem. Porém, isso vai exigir um bocado de recursos, e a gente não incluiu isso no nosso estudo atual. No geral, nosso trabalho contribui pro conhecimento em torno das métricas automáticas em tradução máquina e fornece uma boa base pra mais pesquisas nessa área.
Título: Evaluating Automatic Metrics with Incremental Machine Translation Systems
Resumo: We introduce a dataset comprising commercial machine translations, gathered weekly over six years across 12 translation directions. Since human A/B testing is commonly used, we assume commercial systems improve over time, which enables us to evaluate machine translation (MT) metrics based on their preference for more recent translations. Our study not only confirms several prior findings, such as the advantage of neural metrics over non-neural ones, but also explores the debated issue of how MT quality affects metric reliability--an investigation that smaller datasets in previous research could not sufficiently explore. Overall, our research demonstrates the dataset's value as a testbed for metric evaluation. We release our code at https://github.com/gjwubyron/Evo
Autores: Guojun Wu, Shay B. Cohen, Rico Sennrich
Última atualização: 2024-10-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.03277
Fonte PDF: https://arxiv.org/pdf/2407.03277
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.