Avaliação de Tradução Automática: Métricas de Sentença vs. Métricas de Parágrafo
Esse artigo analisa quão bem os métodos de avaliação atuais pontuam traduções em nível de parágrafo.
― 7 min ler
A Tradução automática melhorou pra caramba, passando de traduzir sentenças isoladas pra blocos maiores de texto. Essa mudança levanta questões sobre como as ferramentas de Avaliação existentes pontuam essas traduções mais longas. Queremos saber se os métodos de avaliação automática que funcionaram bem para frases também conseguem avaliar direitinho traduções de parágrafos inteiros. Esse artigo divide a pesquisa sobre como avaliar essas ferramentas de tradução a nível de parágrafo.
Contexto
A tradução automática tradicional sempre focou em frases. A maioria das Métricas de avaliação usadas foi criada pra isso e faz uma pergunta simples: quão bem a frase traduzida corresponde à frase original? Mas, conforme as tarefas de tradução se expandem pra incluir várias frases, capítulos, ou até documentos inteiros, fica importante avaliar esses textos mais longos de forma eficaz.
Atualmente, não tem uma definição clara do que é um "documento" nesse contexto. Esse estudo escolhe usar "parágrafo" pra descrever o comprimento do texto nos nossos conjuntos de Dados, já que isso dá um padrão mais claro do que estamos avaliando.
Criando Conjuntos de Dados a Nível de Parágrafo
Pra avaliar traduções a nível de parágrafo, primeiro precisamos de dados que reflitam isso. Aproveitamos conjuntos de dados existentes, que foram originalmente criados pra frases. Os dados que usamos vêm de avaliações diretas, onde avaliadores humanos dão notas pras frases, e conjuntos de dados de Métricas de Qualidade Multidimensionais, que analisam erros em frases.
Usando esses conjuntos de dados, desenvolvemos um método pra criar Pontuações a nível de parágrafo. Isso envolveu combinar frases que foram pontuadas pelos mesmos avaliadores em instâncias de parágrafo. As notas desses parágrafos são a média das notas das avaliações diretas ou as somas das pontuações de erro das Métricas de Qualidade Multidimensionais.
Comparando Pontuações: A Nível de Frase vs. A Nível de Parágrafo
Depois, precisamos comparar como as métricas a nível de frase se saíram quando aplicadas a parágrafos. Fizemos isso de duas maneiras principais:
Usando Métricas a Nível de Frase: Essas métricas foram originalmente criadas pra frases isoladas, mas podem ser aplicadas a parágrafos tratando-os como unidades únicas. Esse método permite que as métricas existentes sejam reaproveitadas pra pontuar textos mais longos.
Treinando Novas Métricas: Exploramos a criação de novas métricas de avaliação especificamente desenhadas pra parágrafos. Isso envolveu treinar modelos usando os novos conjuntos de dados de parágrafo pra prever pontuações de qualidade pra seções maiores de texto.
Surpreendentemente, nossos achados mostraram que usar métricas de nível de frase pra avaliar parágrafos inteiros foi tão eficaz quanto usar métricas criadas especificamente pra parágrafos. Os resultados indicam que as métricas de nível de frase conseguem se generalizar bem pra entradas mais longas.
O Papel do Contexto na Avaliação
Quando avaliamos o desempenho dessas métricas, notamos um comportamento interessante. À medida que o comprimento dos parágrafos aumentava, a correlação entre as pontuações automáticas e as avaliações humanas melhorava. Isso sugere que avaliar textos mais longos pode remover um pouco do barulho encontrado em avaliações mais curtas, levando a resultados mais confiáveis.
No entanto, também percebemos que a versão zero-shot do grande modelo de linguagem, PaLM-2, teve um desempenho fraco nessa situação. As saídas desse modelo tendiam a gerar muitos empates, resultando em menor precisão ao avaliar parágrafos mais longos. Ou seja, quando pedimos ao modelo pra prever a qualidade de traduções mais longas, ele teve dificuldades pra fazer isso de forma precisa.
Limitações das Métricas Atuais
Embora tenhamos descoberto que as métricas a nível de frase se saíram bem na pontuação de parágrafos, existem limitações importantes.
Falta de Variedade no Conjunto de Dados: Os conjuntos de dados que construímos ainda dependem bastante de traduções a nível de frase. Assim, eles podem não capturar todas as diferentes maneiras que os parágrafos podem ser formados ou pontuados. Fenômenos de tradução importantes, como a ordem das informações no texto, podem não estar bem representados porque nossos dados foram costurados a partir de frases individuais.
Problemas de Generalização: Mesmo que as métricas a nível de frase tenham funcionado bem, elas podem não ser capazes de se adaptar a traduções de parágrafos verdadeiros onde as frases não seguem a ordem original ou onde o contexto é mais complexo. Trabalhos futuros são necessários pra desenvolver métricas que consigam lidar com essas traduções mais intricadas de forma eficaz.
Direções Futuras
Pra realmente avaliar traduções de parágrafos, precisamos coletar mais julgamentos humanos específicos pra traduções a nível de parágrafo. Isso permitiria o desenvolvimento de novas métricas de avaliação que consigam levar em conta as nuances de traduzir várias frases de uma vez.
Os achados sugerem que, embora as métricas atuais tenham força e aplicabilidade, avançar na avaliação de tradução automática requer uma abordagem mais focada que capture as complexidades de textos mais longos. Ao abordar essas lacunas, a pesquisa futura pode melhorar a avaliação de qualidade de tradução e aumentar ainda mais as tecnologias de tradução automática.
Conclusão
Resumindo, a pesquisa indica que as métricas existentes a nível de frase podem ser úteis na avaliação de traduções de parágrafos. No entanto, há limitações que podem impedir essas métricas de capturar todos os aspectos das traduções de textos mais longos. Recomendamos uma investigação mais aprofundada sobre traduções a nível de parágrafo pra desenvolver ferramentas de avaliação mais adequadas. Trabalhar em uma melhor compreensão de como avaliar essas traduções será fundamental pra avançar na tecnologia de tradução automática.
Resumo das Principais Descobertas
- O estudo compara métricas a nível de frase e métricas a nível de parágrafo pra avaliar traduções automáticas.
- Usar métricas a nível de frase pra traduções de parágrafo é tão eficaz quanto novas métricas criadas pra parágrafos.
- Os resultados mostraram que parágrafos mais longos geram melhor concordância com avaliações humanas.
- Há limitações nos conjuntos de dados atuais, dificultando a avaliação completa de fenômenos complexos de tradução.
- Trabalhos futuros devem focar na coleta de dados e avaliações específicas pra traduções a nível de parágrafo.
Agradecimentos
Por fim, reconhecemos que a jornada pra melhorar a avaliação de tradução automática é uma colaboração. Muitos pesquisadores estão contribuindo pra esse esforço, empurrando os limites do que as ferramentas automatizadas podem realizar. O diálogo contínuo nessa área vai beneficiar pesquisadores, desenvolvedores e usuários que dependem de tradução automática no trabalho e na vida cotidiana.
Referências
(Referências para leitura e exploração adicional sobre o tópico geralmente seriam incluídas aqui.)
Título: Training and Meta-Evaluating Machine Translation Evaluation Metrics at the Paragraph Level
Resumo: As research on machine translation moves to translating text beyond the sentence level, it remains unclear how effective automatic evaluation metrics are at scoring longer translations. In this work, we first propose a method for creating paragraph-level data for training and meta-evaluating metrics from existing sentence-level data. Then, we use these new datasets to benchmark existing sentence-level metrics as well as train learned metrics at the paragraph level. Interestingly, our experimental results demonstrate that using sentence-level metrics to score entire paragraphs is equally as effective as using a metric designed to work at the paragraph level. We speculate this result can be attributed to properties of the task of reference-based evaluation as well as limitations of our datasets with respect to capturing all types of phenomena that occur in paragraph-level translations.
Autores: Daniel Deutsch, Juraj Juraska, Mara Finkelstein, Markus Freitag
Última atualização: 2023-08-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.13506
Fonte PDF: https://arxiv.org/pdf/2308.13506
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.