Simple Science

Ciência de ponta explicada de forma simples

# Informática # Computação e linguagem

A Tradução Literária é o Destaque no WMT 2024

O desafio WMT mostra os avanços na tradução automática literária em três pares de idiomas.

Longyue Wang, Siyou Liu, Chenyang Lyu, Wenxiang Jiao, Xing Wang, Jiahao Xu, Zhaopeng Tu, Yan Gu, Weiyu Chen, Minghao Wu, Liting Zhou, Philipp Koehn, Andy Way, Yulin Yuan

― 7 min ler


WMT 2024: Batalha dos WMT 2024: Batalha dos Tradutores na tradução literária no WMT 2024. As máquinas desafiam tradutores humanos
Índice

No mundo da tradução literária, rola um evento grande chamado WMT (Workshop on Machine Translation). Esse ano, eles tão de volta com uma segunda rodada de um desafio focado em traduzir obras literárias. Esse desafio quer resolver umas paradas complicadas quando se trata de traduzir coisas como romances e histórias de uma língua pra outra. Pense nisso como uma Olimpíada literária pros sistemas de tradução automática!

Qual é a do Desafio?

O principal objetivo desse desafio é ver como os computadores conseguem traduzir textos literários. Esse ano, eles focaram em três pares de línguas: Chinês pra Inglês, Chinês pra Alemão e Chinês pra Russo. O primeiro já existe há um tempo, mas os outros dois são novidades. Então, assim como quando você coloca novos jogadores no seu jogo favorito, tem uma empolgação e expectativa pra ver como todo mundo se sai.

Pra entrar na brincadeira, equipes de escolas e empresas mandaram seus sistemas pra avaliação. No total, foram dez submissões de cinco grupos diferentes. Os organizadores não confiaram só nos computadores pra avaliar como essas traduções ficaram boas. Eles também chamaram avaliadores humanos. Afinal, até as máquinas mais espertas precisam de um toque humano às vezes!

O Processo de Avaliação

Avaliar como esses sistemas de tradução se saíram envolve umas contas sérias e muita leitura. As avaliações foram divididas em dois métodos: automática e humana. As avaliações automáticas são como aqueles placares que você vê durante eventos esportivos – elas dão um feedback rápido baseado em métricas e números. As avaliações humanas são mais como seus amigos dando opiniões sinceras sobre sua comida.

Nas avaliações automáticas, as equipes usaram uns sistemas de pontuação sofisticados que analisam quão bem as traduções combinam com os textos originais. Já do lado humano, eles olharam pra aspectos como a fluência e precisão das traduções, além de como elas capturaram a essência e o estilo da escrita original.

O Que Mostraram os Resultados?

As equipes descobriram umas paradas legais nos resultados. Pra começar, a maioria dos sistemas das equipes, depois de um ajuste pro que é traduzir literatura, se saiu melhor que os sistemas padrão. Isso significa que algumas das ferramentas comuns que o pessoal costuma usar ficaram pra trás quando enfrentaram esses Modelos mais especializados.

Surpreendentemente, os resultados de um sistema segundo os juízes humanos diferiram bastante do que as avaliações automáticas mostraram. Isso mostra que às vezes máquinas e humanos não tão na mesma sintonia. Além disso, o melhor sistema da trilha restrita foi quase tão bom quanto o time top da categoria não restringida, indicando que é possível alcançar ótimos resultados com mais limitações.

Os Dados Usados

Pra ajudar os participantes, foi fornecido um conjunto de dados único chamado GuoFeng Webnovel Corpus. Ele contém uma mistura de romances e capítulos que os participantes usaram pra praticar antes dos testes oficiais. O conjunto Chinês-Inglês é bem abrangente; inclui vários gêneros pra garantir que as equipes tivessem material suficiente. Já os novos conjuntos de dados Alemão e Russo se mostraram um pouco mais complicados, já que faltava a estrutura de frases que tinha no conjunto Chinês-Inglês.

Cada equipe também pôde usar modelos pré-treinados, que são tipo cheat codes em um videogame que te dão uma vantagem. Esses modelos já foram treinados com diversos dados, permitindo que as equipes começassem seus sistemas de tradução sem ter que começar do zero.

Os Modelos em Jogo

Os participantes tinham acesso a uma variedade de modelos de aprendizado de máquina pra ajudar nas traduções. Alguns dos mais populares incluíam RoBERTa e mBART, que já tão por aí há um tempo. Mas esse ano, também apresentaram um novo modelo bacana: o Chinese-Llama-2. Você pode dizer que é como adicionar o gadget mais recente na sua caixa de ferramentas.

Esses modelos são essenciais, pois dão às equipes uma chance de conseguir resultados incríveis. Eles ajudam a dar sentido ao contexto, fazendo as traduções soarem mais naturais e menos como se um robô tivesse escrito. Além disso, permite que as equipes ajustem suas abordagens ao longo do caminho.

Métricas de Avaliação

Quando se trata de pontuação, os avaliadores usaram várias métricas pra medir o desempenho. Por exemplo, eles analisaram quão bem as frases traduzidas combinavam com as originais (pense nisso como um teste de ortografia pra traduções). Eles também avaliaram a qualidade geral e a coerência dos documentos traduzidos.

As pontuações variaram de 0 a 5, onde um 5 indicava que a tradução era de excelente qualidade, enquanto um 0 significava que a tradução era um desastre. Os avaliadores eram como juízes em um show de talentos, decidindo quem merece o prêmio principal e quem precisa voltar pra estaca zero.

Os Concorrentes

Várias equipes participaram desse desafio, cada uma trazendo seu estilo único. Uma equipe de San Diego apresentou um sistema que dependia bastante de dicionários customizados e utilizou vários modelos de IA como o GPT-4 pra garantir que as traduções de nomes e expressões idiomáticas estivessem perfeitas. Eles adotaram uma abordagem metódica pra garantir que tudo se encaixasse direitinho.

Outra equipe da Huawei focou em afinar seu modelo Chinese-Llama2. Eles se esforçaram muito pra criar uma estrutura que mantivesse a coerência nas traduções. Essa abordagem levou a algumas melhorias significativas nas pontuações em comparação com os sistemas básicos.

Teve também um grupo contribuinte de Macau, que utilizou um modelo de IA popular pra gerar múltiplas traduções e escolher a melhor. Eles mostraram pra gente o poder de revisar as opções antes de decidir pelo rascunho final.

A Análise dos Resultados

Quando o assunto são os resultados, os números contaram uma história interessante. As pontuações dos diferentes sistemas variaram bastante. O sistema que mais se destacou na tradução Chinês-Inglês mostrou melhorias notáveis e superou a linha de base padrão por uma boa margem.

Mas não era só sobre os números. As avaliações humanas revelaram ainda mais insights. Os sistemas mais bem avaliados não apenas traduziram as palavras; eles capturaram o espírito dos textos originais, que é o objetivo da tradução literária.

Conclusão

O desafio WMT 2024 trouxe juntos alguns cérebros brilhantes e tecnologias, empurrando os limites do que a tradução automática pode alcançar. Ele destacou o imenso potencial de juntar a criatividade humana com os avanços tecnológicos.

Ao incentivar as equipes a exercitar seus músculos de tradução, o desafio não só ajudou a avaliar diferentes métodos, mas também despertou um interesse maior em melhorar como as máquinas entendem e transmitem as nuances da literatura.

Então, seja você alguém que acha que máquinas um dia vão rivalizar com a habilidade de um tradutor experiente ou apenas vê isso como um vislumbre fascinante do futuro do processamento de linguagem, uma coisa é certa: tradução literária não é uma tarefa fácil, e os esforços pra aprimorá-la com certeza vão continuar.

Enquanto olhamos pra frente, quem sabe o que a próxima onda de traduções vai trazer? Com mentes criativas e tecnologia de ponta, podemos esperar desenvolvimentos ainda mais empolgantes nesse campo. E quem sabe – talvez um dia, as máquinas escrevam o próximo grande romance!

Mais de autores

Artigos semelhantes