Melhorando o Reconhecimento de Entidades Nomeadas em Línguas de Baixos Recursos
Um novo sistema melhora o processamento de linguagem para línguas sub-representadas.
― 5 min ler
Índice
Modelos de linguagem pré-treinados fizeram um grande avanço em tarefas linguísticas, especialmente para línguas que têm muitos dados disponíveis. No entanto, quando se trata de línguas com menos dados ou aquelas que não foram representadas no treinamento, esses modelos não se saem tão bem.
Para resolver esse desafio, foi introduzido um novo framework chamado Tradução-e-fusão. Esse método traduz texto de línguas de baixo recurso para línguas de alto recurso, para que melhores anotações possam ser adicionadas usando modelos treinados com mais dados. Depois de anotar, as informações são combinadas de volta na língua de baixo recurso.
O foco é melhorar como reconhecemos Entidades Nomeadas-como pessoas, locais e organizações-em línguas que normalmente têm menos informações disponíveis. O novo modelo foi testado em dois conjuntos de dados que incluem 25 línguas diferentes. Os resultados mostram uma melhoria significativa no desempenho em comparação com outros sistemas.
A Importância de Modelos Multilíngues
Recentes desenvolvimentos em modelos de linguagem que suportam várias línguas se tornaram uma estratégia popular para tarefas cross-lingual. Esses modelos conseguem lidar com muitas línguas e se saem bem nas que estão mais relacionadas. No entanto, ao tentar reconhecer entidades em línguas de baixo recurso, o desempenho tende a cair bastante.
Muitos pesquisadores têm olhado como adaptar esses modelos multilíngues para funcionar melhor com línguas que não estavam incluídas no treinamento original. Isso geralmente envolve re-treinar os modelos usando textos disponíveis nessas línguas, mas pode causar problemas, incluindo esquecer o que o modelo aprendeu originalmente.
Avanços na Tradução Automática abriram novas oportunidades para ajudar línguas com menos dados. Usando tradução automática, fica mais fácil criar conjuntos de dados necessários para o treinamento.
O Framework Tradução-e-Fusão
Esse framework segue três etapas principais:
- Traduzir: Converter texto de língua de baixo recurso para uma língua de alto recurso.
- Anotar: Usar um modelo treinado para rotular o texto traduzido.
- Fusar: Combinar as anotações de dados das línguas de alto e baixo recurso para melhorar as previsões.
Um modelo é proposto que integra dados de ambas as línguas para produzir resultados mais precisos.
Treinamento e Conjuntos de Dados
Para treinar o novo modelo, são necessárias frases paralelas com anotações. Isso envolve traduzir conjuntos de dados de línguas de alto recurso existentes para línguas de baixo recurso enquanto rotula as traduções. Combinando essas traduções com os textos originais, um conjunto de dados robusto para treinamento é criado.
O modelo é treinado usando uma mistura de ambos os conjuntos de dados, levando a previsões mais precisas.
Dois conjuntos de dados específicos foram escolhidos para este estudo: MasakhaNER2.0, que foca em línguas africanas, e LORELEI NER, que analisa línguas de baixo recurso em situações de emergência. Ambos os conjuntos ajudam a avaliar o desempenho do modelo de forma mais eficaz.
O Papel da Tradução Automática
Central ao framework Tradução-e-Fusão está a tradução automática. O modelo de tradução escolhido pode traduzir entre uma ampla gama de línguas, apoiando os objetivos do framework. Ao usar esse modelo durante a análise, os pesquisadores podem avaliar quão bem o método Tradução-e-Fusão funciona com vários tamanhos de tradução.
A qualidade da tradução é crucial porque afeta o resultado geral da tarefa de reconhecimento. As traduções certas levam a melhores anotações, o que, por sua vez, melhora as previsões.
Resultados e Descobertas
Após avaliar o método proposto, descobriu-se que ele supera consistentemente os sistemas existentes em reconhecer entidades. O novo modelo mostrou efeitos significativos em melhorar o desempenho geral, indicando que usar uma combinação de traduções e anotações pode levar a melhores resultados em cenários de baixo recurso.
A análise revelou que o modelo proposto é eficaz mesmo quando enfrenta erros de traduções e anotações. Essa robustez é essencial para garantir um desempenho confiável em diferentes línguas.
Além disso, o estudo explorou como combinar informações de várias línguas pode melhorar ainda mais os resultados. Usar outras línguas de alto recurso durante a fase de treinamento ajudou a aumentar as habilidades preditivas do modelo.
Desafios e Considerações
Embora o framework Tradução-e-Fusão ofereça várias vantagens, ele também introduz etapas extras durante o processo de teste, como tradução e Anotação. Isso pode resultar em atrasos adicionais, o que é uma compensação que os praticantes precisam considerar.
Usar sistemas como o ChatGPT também pode ajudar a reconhecer entidades sem treinamento prévio em línguas específicas. O modelo mostrou potencial para realizar tarefas em línguas de baixo recurso, mas ainda ficou atrás de modelos totalmente supervisionados.
Conclusão
Resumindo, o framework Tradução-e-Fusão representa um grande avanço na melhoria do reconhecimento de entidades nomeadas em línguas de baixo recurso. Ao aproveitar traduções e combinar cuidadosamente anotações de dados, o modelo pode produzir resultados mais precisos. A contínua investigação desse método indica que há muitas possibilidades para melhorias e aplicações em tarefas de processamento de linguagem.
À medida que mais línguas e conjuntos de dados diversos se tornam disponíveis, esforços contínuos nessa área ajudarão a fechar a lacuna para aquelas línguas que atualmente carecem de recursos suficientes. Essa abordagem pode abrir caminho para uma melhor comunicação e entendimento em paisagens linguísticas diversas.
Título: Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction
Resumo: Large language models (LLMs) combined with instruction tuning have shown significant progress in information extraction (IE) tasks, exhibiting strong generalization capabilities to unseen datasets by following annotation guidelines. However, their applicability to low-resource languages remains limited due to lack of both labeled data for fine-tuning, and unlabeled text for pre-training. In this paper, we propose TransFusion, a framework in which models are fine-tuned to use English translations of low-resource language data, enabling more precise predictions through annotation fusion. Based on TransFusion, we introduce GoLLIE-TF, a cross-lingual instruction-tuned LLM for IE tasks, designed to close the performance gap between high and low-resource languages. Our experiments across twelve multilingual IE datasets spanning 50 languages demonstrate that GoLLIE-TF achieves better zero-shot cross-lingual transfer over the base model. In addition, we show that TransFusion significantly improves low-resource language named entity recognition when applied to proprietary models such as GPT-4 (+5 F1) with a prompting approach, or fine-tuning different language models including decoder-only (+14 F1) and encoder-only (+13 F1) architectures.
Autores: Yang Chen, Vedaant Shah, Alan Ritter
Última atualização: 2024-06-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.13582
Fonte PDF: https://arxiv.org/pdf/2305.13582
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.