Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando Modelos de Linguagem Multilíngues em Línguas Índicas

Um estudo completo sobre o desempenho de modelos de linguagem em 10 línguas do subcontinente indiano.

― 8 min ler


Avaliação de LLMAvaliação de LLMMultilíngue Descomplicadalinguagem em diferentes culturas.Uma imersão na avaliação de modelos de
Índice

Avaliando modelos de linguagem grandes multilíngues (LLMs) é um desafio e tanto por causa de várias dificuldades. Isso inclui a falta de benchmarks diversos, alguns benchmarks sendo usados no treinamento dos modelos e a ausência de detalhes culturais locais nos benchmarks traduzidos. Este estudo investiga como humanos e LLMs avaliam modelos em diferentes idiomas e culturas. Testamos 30 modelos em 10 idiomas indianos, realizando 90.000 avaliações humanas e 30.000 avaliações de LLM. Nossos resultados mostram que modelos como GPT-4o e Llama-3 70B se saíram bem na maioria dos idiomas indianos.

Pipeline de Avaliação

Nosso processo de avaliação envolveu várias etapas. Primeiro, reunimos uma variedade de Prompts de Avaliação com a ajuda de falantes nativos. Segundo, geramos respostas dos modelos selecionados para esses prompts. Terceiro, fizemos avaliações das respostas geradas em dois contextos: avaliação direta e Comparação par a par, usando tanto avaliadores humanos quanto um LLM. Por último, criamos tabelas de classificação com base nas pontuações que obtivemos e analisamos quanto acordo havia entre os avaliadores humanos e os LLMs.

Contexto

Modelos de linguagem grandes avançaram bastante nos últimos anos, mas entender suas habilidades pode ser complicado. A avaliação por benchmarks se tornou a principal forma de verificar esses modelos, com muitos benchmarks conhecidos usados para checagens de qualidade. No entanto, a avaliação padrão tem vários problemas. Benchmarks populares podem ser encontrados online e já podem estar incluídos nos dados de treinamento dos LLMs, tornando a avaliação injusta. Essa situação, conhecida como contaminação de conjunto de dados de teste, pode acontecer durante o treinamento e o ajuste fino. Há uma necessidade de avaliações mais dinâmicas com assistência humana, mesmo que a Avaliação Humana possa ser demorada e cara. Por isso, o uso de LLMs como avaliadores tem crescido em popularidade.

A maior parte das pesquisas sobre treinamento e avaliação de LLMs foca no inglês. Estudos recentes indicam que os LLMs se saem pior com idiomas não ingleses, especialmente aqueles que usam sistemas de escrita diferentes e línguas com poucos recursos. Estudos também destacaram que modelos líderes, como o GPT-4, normalmente se alinham mais com normas ocidentais. Isso levou ao desenvolvimento de modelos adaptados para idiomas, culturas e regiões específicas, incluindo indiano, árabe, africano, chinês, europeu e indonésio. Os desafios da avaliação multilíngue vêm da disponibilidade limitada de benchmarks multilíngues, da falta de diversidade linguística dentro desses benchmarks e do risco de contaminação. Além disso, muitos benchmarks multilíngues são traduções de benchmarks em inglês, perdendo importantes contextos culturais e linguísticos.

Nosso Trabalho

Neste estudo, realizamos a maior avaliação humana multilíngue de LLMs que conhecemos, com 90.000 avaliações em 10 idiomas indianos. Usamos um novo conjunto de prompts, criados independentemente por falantes nativos, para representar tópicos gerais e perguntas culturalmente específicas. Empregamos avaliadores humanos de várias regiões, focando especialmente em comunidades rurais e sub-representadas na Índia.

Além das avaliações humanas, também usamos LLMs como avaliadores. Fizemos isso para investigar melhor como as avaliações humanas e de LLMs concordam e para avaliar a segurança, para a qual considerações éticas limitaram o envolvimento humano.

Contribuições

Nosso trabalho inclui as seguintes contribuições principais:

  1. Completamos 90.000 avaliações humanas em 10 idiomas indianos, avaliando 30 modelos indianos e multilíngues usando conjuntos de dados culturalmente sutis.
  2. Realizamos as mesmas avaliações usando LLMs como avaliadores, o que nos permitiu analisar o quão bem as avaliações humanas e de LLMs concordam.
  3. Criamos tabelas de classificação com base nas avaliações de fontes humanas e de LLMs e examinamos tendências e preconceitos em diferentes idiomas e modelos.

Trabalhos Relacionados

Benchmarks de avaliação multilíngue tentam avaliar vários modelos usando benchmarks multilíngues disponíveis. Alguns liberaram testes gerativos multilíngues que abrangem várias línguas. Outros benchmarks incluem XGLUE e XTREME, que também se concentram em tarefas multilíngues.

Em termos de benchmarks indianos, o primeiro benchmark de NLU indiano, o IndicGLUE, foi lançado para 11 idiomas, que depois foi expandido para cobrir todos os 22 idiomas indianos. Outros benchmarks avaliam tarefas como tradução automática e resposta a perguntas para idiomas indianos.

A avaliação humana tem sido usada em vários estudos para avaliar LLMs ou criar padrões de referência para prompts de avaliação culturalmente sutis. Avaliadores LLMs têm sido úteis em muitos estudos devido à sua capacidade de seguir instruções, embora alguns estudos tenham mostrado preconceitos em suas avaliações. Trabalhos recentes destacaram a necessidade de uma avaliação multilíngue de LLMs, apontando as limitações dos benchmarks existentes e levantando questões sobre valores culturais em modelos de linguagem.

Configuração da Avaliação

Avaliamos 10 idiomas indianos: Hindi, Tamil, Telugu, Malayalam, Kannada, Marathi, Odia, Bengali, Gujarati e Punjabi. Nossos prompts incluíam 20 perguntas por idioma, cobrindo saúde, finanças e tópicos culturalmente sutis que foram elaborados por falantes nativos.

Avaliamos vários modelos populares de linguagem indiana e LLMs proprietários líderes. A maioria dos LLMs indianos são versões ajustadas de modelos de código aberto. Portanto, incluímos versões instrucionais desses modelos para avaliar seu desempenho com dados indianos.

É importante notar que comparar modelos de código aberto com sistemas baseados em API pode não ser totalmente justo devido a diferentes componentes em jogo. Tratamos todos os modelos igualmente em nosso estudo para consistência.

Estratégias de Avaliação

Usamos duas estratégias para avaliar as respostas geradas: comparação par a par e avaliação direta. Para a comparação par a par, comparamos as respostas dos modelos ao mesmo prompt usando o sistema de classificação Elo, que nos ajuda a medir e classificar os modelos com base em seu desempenho.

Na avaliação direta, tanto os anotadores humanos quanto um LLM avaliaram cada par de pergunta-resposta com base em três critérios: Aceitabilidade Linguística, Qualidade da Tarefa e Alucinação. A classificação de cada modelo foi determinada através de um sistema de pontuação.

Avaliadores Humanos e LLM

Os avaliadores humanos realizaram suas tarefas em smartphones, onde revisaram prompts e respostas correspondentes dos modelos. Eles foram convidados a selecionar qual resposta era melhor ou se ambas eram igualmente boas ou ruins.

O avaliador LLM seguiu uma configuração semelhante, mas usou um formato de prompt diferente. Instruções detalhadas foram dadas a ambos os avaliadores humanos e de LLM para garantir clareza na pontuação das respostas.

Análise de Acordo

Para avaliar a qualidade das anotações humanas e o acordo entre humanos e LLMs, avaliamos o acordo entre anotadores. Usamos métricas como Percentual de Acordo e Pontuações de Fleiss Kappa para medir a consistência das avaliações.

Também comparamos classificações das avaliações humanas e de LLMs usando o Tau de Kendall, permitindo avaliar o nível de acordo entre os dois avaliadores.

Análise de Preconceitos

Nossa análise procurou diversos preconceitos, incluindo preconceito de posição e preconceito de verbosidade. Conferimos preconceitos invertendo escolhas em comparações par a par e medindo quão consistentes as respostas permaneciam.

Nossos achados mostraram que não havia preconceito significativo na escolha de opções durante as avaliações. No entanto, os LLMs se mostraram mais decisivos, frequentemente favorecendo uma resposta em detrimento da outra, mesmo quando ambas as respostas tinham problemas.

Avaliação de Segurança

Para a análise de segurança, usamos um conjunto de dados específico projetado para provocar respostas inadequadas e avaliamos as saídas de diferentes modelos usando avaliadores LLM. Comparamos essas saídas com uma lista pré-definida de termos para checar conteúdo problemático.

Resultados

Nossas avaliações revelaram que modelos indianos menores geralmente superaram os modelos de código aberto nos quais eram baseados. Modelos maiores como GPT-4o mostraram o melhor desempenho geral.

Descobrimos que avaliadores LLMs concordaram bem com humanos na avaliação par a par, mas tiveram menor concordância na avaliação direta, especialmente para respostas que envolviam nuances culturais.

Conclusões

Este estudo forneceu avaliações extensivas de LLMs multilíngues ao combinar pontuações de avaliadores humanos e de LLMs. Destacamos os desafios e preconceitos nas avaliações multilíngues, enfatizando a necessidade de um sistema de avaliação híbrido que inclua perspectivas humanas.

Nossos achados indicaram que, embora os LLMs possam capturar tendências gerais, eles tiveram dificuldade com avaliações culturalmente sutis. Isso sugere que a entrada humana continua sendo vital na avaliação de modelos de linguagem em diferentes idiomas e contextos.

Trabalho Futuro

Para frente, temos a intenção de ampliar nossa avaliação para mais idiomas indianos e aumentar o número de prompts utilizados em nossas avaliações. Também estamos buscando incorporar mais modelos conforme eles se tornam disponíveis.

Além disso, planejamos investigar mais preconceitos nas avaliações e melhorar a robustez de nossa configuração de avaliação, garantindo uma compreensão abrangente do desempenho multilíngue em modelos de linguagem.

Fonte original

Título: PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data

Resumo: Evaluation of multilingual Large Language Models (LLMs) is challenging due to a variety of factors -- the lack of benchmarks with sufficient linguistic diversity, contamination of popular benchmarks into LLM pre-training data and the lack of local, cultural nuances in translated benchmarks. In this work, we study human and LLM-based evaluation in a multilingual, multi-cultural setting. We evaluate 30 models across 10 Indic languages by conducting 90K human evaluations and 30K LLM-based evaluations and find that models such as GPT-4o and Llama-3 70B consistently perform best for most Indic languages. We build leaderboards for two evaluation settings - pairwise comparison and direct assessment and analyze the agreement between humans and LLMs. We find that humans and LLMs agree fairly well in the pairwise setting but the agreement drops for direct assessment evaluation especially for languages such as Bengali and Odia. We also check for various biases in human and LLM-based evaluation and find evidence of self-bias in the GPT-based evaluator. Our work presents a significant step towards scaling up multilingual evaluation of LLMs.

Autores: Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram

Última atualização: 2024-10-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.15053

Fonte PDF: https://arxiv.org/pdf/2406.15053

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes