Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliação da Qualidade da Tradução Automática ao Longo do Tempo

Um estudo sobre o desempenho de várias métricas para traduções automáticas.

― 8 min ler


Métricas na Avaliação deMétricas na Avaliação deTradução Automáticaqualidade de tradução.Um estudo completo sobre métricas de
Índice

A gente criou uma coleção de dados que inclui traduções feitas por sistemas de Tradução automática ao longo de seis anos. Essa coleção cobre traduções em 12 idiomas diferentes. A ideia principal é ver como diferentes métricas se saem na hora de medir a qualidade das traduções feitas por máquinas.

Geralmente, os pesquisadores olham como as métricas automáticas, que servem pra avaliar traduções, se alinham com opiniões humanas. Mas, pegar opiniões humanas costuma ser caro e demorado. Além disso, os estudos comuns costumam usar só alguns sistemas de tradução, o que dificulta tirar conclusões mais amplas. Nessa pesquisa, decidimos seguir um caminho diferente, usando dados de sistemas de tradução comercial ao longo de um período maior.

A gente coletou traduções automáticas toda semana, usando o Google Tradutor, e supomos que esses sistemas melhoram com o tempo. Comparando as traduções de anos anteriores com as mais recentes, dá pra ver como as métricas avaliam a qualidade das traduções.

Nossos achados apoiam muitos estudos anteriores na área de métricas de tradução automática. Por exemplo, descobrimos que métricas baseadas em tecnologia de rede neural mostraram uma conexão muito mais forte com os julgamentos humanos do que métricas mais antigas, que não usam rede neural. A gente viu que essas Métricas Neurais consistentemente mostraram melhorias ao longo do tempo e avaliaram a qualidade das traduções de forma mais precisa em comparação com métricas não neurais.

Em estudos anteriores, foi mostrado que a conexão entre métricas e avaliações humanas fica mais fraca quando se foca apenas nos melhores sistemas de tradução. Porém, estudos anteriores tinham um número limitado de sistemas em consideração, o que torna difícil confirmar essa ideia completamente. No nosso estudo, usamos uma amostra maior e confirmamos que, à medida que o desempenho dos sistemas de tradução melhora, a correlação entre as pontuações das métricas e os julgamentos humanos tende a diminuir.

Curiosamente, descobrimos que referências de tradução artificial de alta qualidade (criada por máquinas) levaram a uma relação mais forte entre as pontuações das métricas e as avaliações humanas em comparação com traduções feitas por humanos. Analisamos esse efeito para três pares de idiomas e notamos que os resultados foram comparáveis.

Contexto e Trabalhos Relacionados

Métricas que foram treinadas em avaliações humanas têm mostrado muito progresso em combinar bem com esses julgamentos. Pesquisa recente sugere que essas métricas também podem ser aplicadas a novas áreas e desafios.

Em estudos passados, foi observado que a correlação entre métricas e pontuações humanas tende a diminuir com menos sistemas de tradução de topo. Investigações adicionais indicaram que tamanhos de amostra pequenos poderiam levar a essa instabilidade. Em uma tarefa compartilhada recente, traduções humanas receberam classificações surpreendentemente baixas, o que levou à ideia de usar referências artificiais como uma alternativa útil.

Em vez de comparar as métricas apenas com as avaliações humanas, alguns pesquisadores exploraram como as métricas se alinham com os resultados de tarefas que dependem da qualidade das traduções. Nosso estudo também analisa as métricas baseado em como elas classificam traduções mais novas.

Os dados originais usados para nosso estudo vêm de frases em inglês que foram traduzidas para alemão, italiano, espanhol e chinês, focando principalmente em conteúdo de notícias. Cada idioma teve 1.371 frases. Coletamos traduções semanalmente de maio de 2018 a março de 2024 em vários pares de idiomas. Testes iniciais mostraram que havia uma semelhança notável entre traduções profissionais e as saídas iniciais dos sistemas. Devido a essa descoberta, decidimos excluir o espanhol da análise, ficando com 12 pares de idiomas.

Como as Métricas Funcionam

Diferentes métricas têm formas únicas de avaliar traduções. Por exemplo, a BLEU verifica quantas palavras ou frases na tradução combinam com as traduções de referência. A chrF olha para as combinações de caracteres. Outras métricas, como a BERTScore, usam modelos avançados pra comparar o significado das traduções e não só as palavras.

Algumas métricas foram treinadas em pontuações humanas pra oferecer avaliações melhores. Essas incluem COMET-20, UniTE, COMET-22, entre outras. A gente usou vários modelos pra avaliar traduções e comparar suas pontuações com os Rankings de qualidade de tradução ao longo do tempo.

Como as Pontuações das Métricas Mudam com o Tempo

A gente esperava que, conforme os sistemas de tradução melhorassem, as pontuações das métricas refletissem essas mudanças. Pra investigar isso, analisamos como as pontuações flutuaram em pares de idiomas específicos e notamos que, no geral, muitas métricas mostraram uma tendência de alta nesses pares.

Pra medir quão consistentes essas tendências de alta eram, usamos um método estatístico chamado correlação de Spearman. Métricas que mostraram correlações mais altas foram vistas como mais confiáveis em refletir a qualidade geral dos sistemas. Nossos achados indicaram que métricas como a COMET-22 e outras mostraram forte correlação na maioria dos pares de idiomas.

Precisão das Métricas em Classificar Sistemas de Tradução

No nosso trabalho, avaliamos quão bem as métricas conseguiam classificar sistemas mais novos em relação aos mais antigos. A gente supôs que traduções mais novas são geralmente superiores às mais antigas, então calculamos a precisão baseado em quantas vezes as métricas concordaram com o ranking esperado.

Analisamos pares de sistemas que foram desenvolvidos em um período mais curto pra evitar superestimar a confiabilidade das métricas. Isso deu uma visão mais clara de quão bem as métricas desempenharam na distinção entre a qualidade de diferentes sistemas.

Nossos resultados indicaram que métricas treinadas se saíram melhor no geral em comparação com métricas não treinadas. Entre todas as métricas, a COMET-22 teve a maior precisão na classificação dos sistemas de tradução. Métricas mais superficiais, como a chrF, foram melhor que a BLEU, com a chrF alcançando a melhor precisão para traduções em inglês.

A Confiabilidade das Métricas Depende da Qualidade do Sistema?

A gente investigou a ideia de que, conforme os sistemas de tradução melhoram, a confiabilidade das métricas pode cair. Nossa amostra maior permitiu que explorássemos essa questão mais a fundo. Vimos vários cenários para diferentes métricas e percebemos que as tendências variavam.

Por exemplo, em um par de idiomas, métricas treinadas mostraram melhorias ao longo do tempo, enquanto métricas mais superficiais não. Em muitos casos, notamos uma tendência de queda na confiabilidade em vários pares de idiomas.

Impacto das Referências Sintéticas

Pra avaliar melhor como as métricas se saíram, geramos referências sintéticas usando outro sistema de tradução automática. Analisamos essas referências sintéticas para três pares de idiomas específicos e comparamos seu impacto nas métricas de avaliação.

Os achados gerais mostraram que usar referências sintéticas melhorou a precisão das métricas nos pares de idiomas analisados. Isso sugere que referências artificiais podem ser úteis na avaliação da qualidade da tradução.

Conclusão

Através da nossa investigação, confirmamos muitas observações anteriores sobre métricas de tradução automática. Nosso conjunto de dados, que inclui vários pares de idiomas, fornece evidências mais fortes sobre a relação entre qualidade da tradução e confiabilidade das métricas do que conjuntos de dados passados.

A gente incentiva outros pesquisadores a usarem nosso conjunto de dados para estudos adicionais sobre métricas de tradução automática ou pra examinar como a qualidade da tradução muda ao longo do tempo. Nossa suposição de que sistemas mais novos são geralmente melhores que os mais antigos é razoável, mas pode não se aplicar sempre.

Em trabalhos futuros, planejamos explorar o desempenho de métricas de avaliação mais novas que utilizam grandes modelos de linguagem. Porém, isso vai exigir um bocado de recursos, e a gente não incluiu isso no nosso estudo atual. No geral, nosso trabalho contribui pro conhecimento em torno das métricas automáticas em tradução máquina e fornece uma boa base pra mais pesquisas nessa área.

Mais de autores

Artigos semelhantes