Avaliando o FActScore em Diferentes Idiomas
Este estudo investiga a eficácia do FActScore em várias línguas.
― 12 min ler
Índice
- Contexto sobre LLMs
- O Processo do FActScore
- Contribuições
- Trabalhos Relacionados
- Tarefas e Recursos
- Anotação Traduzida
- Anotação Nativa
- Extração de Fatos Atômicos
- Pontuação de Factualidade
- Fonte de Conhecimento
- Desempenho de Recuperação
- O Impacto da Tradução
- Análise de Erros
- Mitigando Erros
- Conclusão
- Fonte original
- Ligações de referência
O FActScore é uma ferramenta feita pra medir quão factual são textos longos criados por Modelos de Linguagem Grande (LLMs) em inglês. Mas, não teve estudo suficiente sobre como o FActScore funciona em diferentes idiomas. Esse artigo explora as limitações da ferramenta FActScore quando usada com várias línguas. A gente criou um novo conjunto de dados pra testar o FActScore com textos feitos por LLMs multilíngues poderosos. Nossas descobertas mostram que esses modelos agem de forma diferente em tarefas relacionadas a encontrar fatos e avaliá-los em várias línguas, especialmente nas que têm diferentes quantidades de recursos disponíveis.
Contexto sobre LLMs
Desenvolvimentos recentes mostraram que os LLMs têm muitas habilidades pra diferentes tarefas. Apesar de estarem melhorando, os LLMs ainda podem gerar informações erradas quando solicitados por fatos. Pra lidar com esse problema, os LLMs estão sendo melhorados em larga escala pra lidar com amplo conhecimento do mundo e reduzir as chances de cometer erros. Outra metodologia, chamada Geração Aumentada por Recuperação, ajuda a fornecer documentos úteis de fontes confiáveis pros LLMs pra evitar informações falsas.
O FActScore foi criado pra oferecer uma maneira automática e econômica de checar a factualidade dos textos gerados. Ele faz isso misturando a pontuação dos LLMs com fontes de conhecimento confiáveis, como a Wikipedia. O FActScore foi aprimorado pra usar bases de conhecimento mais extensas, como a internet, e modelos de recuperação fortes, como o Google Search. Isso leva a resultados melhores em uma gama mais ampla de tópicos.
Dado que muito mais pessoas agora estão usando LLMs em várias línguas, é essencial checar a qualidade da informação produzida em idiomas além do inglês. Isso é crucial pra garantir que usuários ao redor do mundo recebam conteúdos seguros e úteis.
O Processo do FActScore
O FActScore segue um processo estruturado, que envolve várias partes: uma Fonte de Conhecimento, um modelo de recuperação, um LLM que encontra fatos e outro LLM que pontua esses fatos. A gente quer avaliar quão bem cada parte funciona sozinha pra ver onde são necessárias melhorias. No entanto, não havia um conjunto de dados existente pra checar o FActScore em várias línguas, além do conjunto original que era só em inglês.
Pra preencher essa lacuna, criamos um novo conjunto de dados focando na factualidade em três línguas não-inglesas que representam categorias de recursos altos, médios e baixos. Esses dados são baseados em textos gerados por LLMs multilíngues poderosos, como o GPT-4 e o Gemini-Pro-1.0. Nossa pesquisa mostra que todos os modelos usados mostram menos precisão ao pontuar o FActScore em línguas com menos recursos.
Vários problemas causam essa baixa precisão. Primeiro, a parte de Extração de Fatos, que é a tarefa mais simples no processo de FActScore, tem um desempenho pior em línguas de menor recurso. Pra lidar com isso, ajustamos um LLM de código aberto pra essa tarefa, conseguindo resultados melhores do que o GPT-3.5. Segundo, a qualidade da fonte de conhecimento é vital pra obter um FActScore correto. Línguas com mais recursos tendem a ter páginas da Wikipedia de maior qualidade, o que ajuda a conseguir pontuações precisas. Por outro lado, usar a internet como fonte de conhecimento proporciona resultados melhores pra línguas de médio e baixo recurso.
Contribuições
Nosso trabalho traz várias contribuições importantes:
- Desenvolvemos um novo conjunto de dados pra avaliar o FActScore em três línguas.
- Enfatizamos a importância de escolher as fontes de conhecimento certas pra avaliação do FActScore em um contexto multilíngue.
- Aprendemos que melhorar a qualidade da fonte de conhecimento, seja usando a internet ou até utilizando o conhecimento interno de outro LLM, melhora significativamente a precisão do FActScore pra todas as línguas.
Trabalhos Relacionados
À medida que os LLMs avançaram, várias metodologias foram propostas pra checar quão factual eles são. Muitas dessas abordagens envolvem usar perguntas com respostas curtas, mas elas não refletem o uso no mundo real. Em vez disso, avaliar textos gerados abertos dá uma visão clara da precisão factual deles.
Alguns estudos anteriores analisaram o FActScore especificamente para biografias escritas por LLMs, checando fatos candidatos individuais no texto. Outros estudos expandiram os tópicos abordados e usaram a API do Google pra reunir referências, permitindo acesso a uma gama mais ampla de domínios. Nossa investigação se baseia nesses trabalhos anteriores, focando em quão eficaz é o FActScore em diferentes níveis de recursos.
Outras metodologias avaliam o conhecimento interno dos modelos em relação à precisão factual. Embora isso seja fácil de fazer, levanta questões sobre a confiabilidade factual de tais avaliações. Na verificação da factualidade multilíngue, abordagens como X-FACTR e MLAMA exploraram conhecimento relacional por meio de tarefas de preencher lacunas, enquanto o X-Fact lançou um benchmark multilíngue para precisão factual em várias línguas. Nosso trabalho visa avaliar a factualidade da geração de textos abertos.
Tarefas e Recursos
Na nossa pesquisa, avaliamos o FActScore em configurações multilíngues usando dois conjuntos de recursos: uma anotação traduzida de trabalhos anteriores e uma nova anotação nativa criada. O processo do FActScore consiste em duas etapas principais:
- Extração de Fatos Atômicos: Essa etapa descompõe longas biografias geradas por um LLM em declarações factuais menores.
- Pontuação de Factualidade: Essa etapa atribui um rótulo binário (ou suportado ou não suportado) a cada fato candidato com base em uma fonte de conhecimento.
O FActScore final indica quão precisas são as biografias geradas.
Anotação Traduzida
O trabalho original do FActScore publicou uma coleção de biografias geradas por diferentes LLMs, completas com seu FActScore e anotações detalhadas. Usamos o Google Translate pra converter cada fato atômico do inglês pra várias línguas-alvo. Escolhemos uma mistura de línguas de alto recurso (como francês, espanhol, chinês, russo e vietnamita), línguas de médio recurso (como árabe e hindi) e línguas de baixo recurso (como bengali).
Anotação Nativa
Embora as anotações traduzidas tenham oferecido algumas percepções, também introduziram erros devido a problemas de tradução, especialmente em línguas de baixo recurso. Portanto, criamos novos dados do FActScore em línguas não-inglesas pra obter uma melhor compreensão do FActScore e dos desafios envolvidos. Analisamos uma língua de cada categoria de recurso: espanhol, árabe e bengali. Montamos uma variedade de biografias cobrindo diferentes áreas geográficas e níveis de popularidade.
Pra gerar biografias, testamos LLMs multilíngues fortes, como GPT-4 e Gemini Pro. Trabalhamos com anotadores nativos pra cada língua seguindo diretrizes específicas pra avaliar a precisão do texto gerado.
Extração de Fatos Atômicos
O FActScore descompõe textos longos em componentes menores, cada um representando uma única peça de informação. A abordagem original usou exemplos pra solicitar o InstructGPT pra essa tarefa. Nós exploramos quão bem diferentes modelos se saíram e identificamos falhas nos modelos existentes.
Devido à melhor qualidade dos textos gerados em inglês, estudos anteriores focaram principalmente em se os fatos candidatos precisavam ser fundidos ou divididos. No entanto, em um contexto multilíngue, textos gerados podem conter vários erros, como fatos precisando ser fundidos, divididos, ausentes, duplicados ou com erros linguísticos.
Nós avaliamos modelos como GPT-3.5, GPT-4 e Gemma pelo desempenho nessa tarefa. Ajustamos o Gemma em um grande conjunto de dados de pares (frase, fatos atômicos extraídos). Os resultados mostram que o GPT-4 superou os outros modelos em todas as línguas. Enquanto isso, o Gemma ajustado teve um desempenho melhor que o GPT-3.5 em línguas de médio e baixo recurso.
Pontuação de Factualidade
Avaliamos o uso dos LLMs como pontuadores de fatos em configurações multilíngues. Para essa avaliação, usamos o GPT-4 pra extrair fatos das biografias criadas por dois modelos: GPT-4 e GemP. Testamos quatro LLMs como pontuadores de fatos: GPT-3.5, GPT-4, Mistral e GemP. Usamos nosso conjunto de dados anotados por humanos como padrão de avaliação.
Os resultados revelaram que o GemP frequentemente subestimava o FActScore, enquanto o GPT-4 tendia a superestimar. Em contraste, o GPT-3.5 forneceu resultados relativamente precisos pro bengali, mas superestimou pra espanhol e árabe. O Mistral teve o melhor desempenho pro espanhol e árabe, mas subestimou o FActScore pro bengali. Esses resultados implicam que nenhum dos modelos conseguiu fornecer um FActScore confiável de forma consistente entre as línguas.
Fonte de Conhecimento
Como o FActScore depende da fonte de conhecimento, a qualidade e a quantidade de informações disponíveis afetam as pontuações. Estudamos como o FActScore reagiu a diferentes fontes de conhecimento, focando em 32 biografias de várias categorias de popularidade e relevância geográfica.
Os resultados mostraram que a Wikipedia em espanhol era mais precisa pra figuras locais, enquanto a Wikipedia em inglês era melhor pra internacionais. Para o árabe, a Wikipedia em árabe teve um bom desempenho com figuras populares locais, mas a Wikipedia em inglês foi superior pra entidades internacionais. No entanto, a Wikipedia em bengali teve um desempenho inferior em comparação com a Wikipedia em inglês, indicando uma falta de cobertura para entidades locais e internacionais.
Desempenho de Recuperação
O comprimento limitado do contexto nos LLMs significa que as páginas da Wikipedia devem ser divididas em seções mais curtas. Um modelo de recuperação é usado pra encontrar passagens relevantes, que servem como conhecimento de referência. Usamos uma versão multilíngue do SentenceBERT pra isso.
Avaliamos o desempenho de recuperação em línguas de diferentes níveis de recursos. Os resultados revelaram que o desempenho de recuperação diminuiu significativamente nas línguas de menor recurso.
O Impacto da Tradução
Uma maneira simples de usar o FActScore em várias línguas é traduzir textos e fontes de conhecimento não-inglesas pro inglês primeiro, e depois avaliar o FActScore nesses textos traduzidos. Dadas as melhorias significativas na tradução automática na última década, traduzimos a Anotação Nativa pro inglês e comparamos a correspondência de previsões com os textos originais.
Usar textos traduzidos em inglês melhorou a precisão das pontuações pros LLMs, especialmente pra modelos mais fracos como Mistral e GPT-3.5 em línguas de baixo recurso. No entanto, o GPT-4 e o GemP mostraram um desempenho mais constante, refletindo sua capacidade de processar textos tanto em inglês quanto em outras línguas.
Análise de Erros
Nas nossas descobertas, diferenças significativas na precisão das pontuações ainda permanecem entre até os LLMs mais avançados comparados a falantes nativos. Fizemos uma análise de erros pra identificar as principais razões pra discordâncias entre LLMs e humanos.
Entre os erros cometidos pelo GPT-4, muitos eram contextualmente infiéis. Esse problema foi mais prevalente em línguas de baixo recurso. Além disso, muitos exemplos contextualmente infiéis eram factualmente corretos de acordo com outras fontes de conhecimento. Isso sugere que o GPT-4 depende bastante de seu conhecimento interno.
Por outro lado, o GemP teve menos erros contextualmente infiéis, mas cometeu mais erros devido a problemas de recuperação ou dados tabulares. Isso indica que o GemP é mais dependente do contexto e menos do conhecimento interno.
Mitigando Erros
Exploramos três métodos pra mitigar problemas com línguas de menor recurso:
Aumentando as Passagens Recuperadas: Esse método envolveu aumentar o número de passagens de 8 pra 20 pra fornecer mais informações pro pontuador. Os resultados indicaram um aumento geral no desempenho em todas as línguas, especialmente no bengali.
Usando a Internet como Fonte de Conhecimento: Permitindo acesso à web pra pontuar fatos, obtivemos resultados melhores. Por exemplo, a precisão pro bengali melhorou significativamente, mostrando que uma base de conhecimento maior leva a melhores pontuações.
Usando LLMs como Fontes de Conhecimento: Também testamos usar o GPT-4 pra aumentar fontes de conhecimento com pouca cobertura gerando informações relevantes. Essa abordagem produziu melhorias substanciais na pontuação de factualidade, indicando que o conhecimento interno do GPT-4 é confiável e útil.
Conclusão
Esse estudo examina o processo do FActScore pra avaliar textos longos gerados em várias línguas. Nós geramos novos candidatos factuais e criamos um novo conjunto de dados pra avaliar o FActScore. Nossos resultados mostram que LLMs modernos de código aberto enfrentam dificuldades na tarefa de extração de fatos atômicos. Além disso, a tarefa de pontuação de factualidade é muito sensível à cobertura da fonte de conhecimento. Embora confiável, a Wikipedia carece de cobertura suficiente em línguas de baixo recurso, levando a resultados distorcidos do FActScore.
Nossas estratégias de mitigação, como aumentar o acesso à fonte de conhecimento e usar dados não verificados gerados por LLMs, são eficazes em melhorar a precisão do FActScore em várias línguas. No entanto, desafios ainda persistem em abordar mais línguas e conjuntos de dados maiores devido a limitações de financiamento e os altos custos associados a essa tarefa.
À medida que os LLMs continuam a evoluir, as descobertas deste estudo fornecem insights valiosos sobre a pontuação de factualidade multilíngue, abrindo caminho pra futuros avanços.
Título: An Analysis of Multilingual FActScore
Resumo: FActScore has gained popularity as a metric to estimate the factuality of long-form texts generated by Large Language Models (LLMs) in English. However, there has not been any work in studying the behavior of FActScore in other languages. This paper studies the limitations of each component in the four-component pipeline of FActScore in the multilingual setting. We introduce a new dataset for FActScore on texts generated by strong multilingual LLMs. Our evaluation shows that LLMs exhibit distinct behaviors in both fact extraction and fact scoring tasks. No LLM produces consistent and reliable FActScore across languages with varying levels of resources. We also find that the knowledge source plays an important role in the quality of the estimated FActScore. Using Wikipedia as the knowledge source may hinder the true FActScore of long-form text due to its limited coverage in medium- and low-resource languages. We also incorporate three mitigations to our knowledge source that ultimately improve FActScore estimation across all languages.
Autores: Kim Trong Vu, Michael Krumdick, Varshini Reddy, Franck Dernoncourt, Viet Dac Lai
Última atualização: 2024-06-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.19415
Fonte PDF: https://arxiv.org/pdf/2406.19415
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.