INDIC QA BENCHMARK: Avaliando Modelos de Linguagem Multilíngues na Índia
Um novo conjunto de dados pra avaliar perguntas e respostas em línguas indianas.
― 6 min ler
Índice
- A Necessidade de um Benchmark Multilíngue
- O Que é o INDIC QA BENCHMARK?
- Como Criamos o Benchmark
- Limitações dos Métodos Existentes
- O Papel da Geração Aumentada por Recuperação (RAG)
- Avaliando os Modelos
- Principais Contribuições do INDIC QA BENCHMARK
- Observações e Resultados
- Desafios e Considerações
- Conclusão
- Fonte original
- Ligações de referência
Modelos de Linguagem Grande (LLMs) são programas de computador que conseguem analisar e responder à linguagem humana. Eles se saem bem com textos em inglês, mas têm dificuldades com outras línguas, incluindo muitas faladas na Índia. Isso acontece principalmente porque não existem conjuntos de dados de alta qualidade nessas línguas para treinar esses modelos em tarefas específicas, como responder perguntas baseadas em contexto.
Pra resolver esse problema, a gente criou o INDIC QA BENCHMARK, um grande conjunto de dados especificamente projetado para 11 línguas principais da Índia. Esse conjunto vai ajudar pesquisadores a avaliar quão bem os LLMs conseguem responder perguntas nessas línguas, especialmente onde não tem muito suporte.
A Necessidade de um Benchmark Multilíngue
A Índia tem uma população enorme, cerca de 1,43 bilhões de pessoas, e muitas línguas. Mas várias dessas línguas não têm recursos suficientes, principalmente em Processamento de Linguagem Natural (NLP). Isso dificulta o desempenho de tecnologias baseadas em compreensão de linguagem nessas línguas.
Os LLMs são treinados com muitos dados textuais, mas mesmo assim, os resultados podem ser incertos. Essa inconsistência geralmente surge por causa de dificuldades em entender o contexto e imprecisões no conhecimento que eles têm sobre as tarefas que estão realizando.
O Que é o INDIC QA BENCHMARK?
O INDIC QA BENCHMARK é uma ferramenta completa para avaliar as habilidades de perguntas e respostas dos LLMs em várias línguas indianas. Ele inclui tarefas onde o modelo precisa puxar informações diretamente do texto (tarefas extrativas) e tarefas onde o modelo precisa gerar respostas que não estão explicitamente no texto fornecido (tarefas abstrativas).
O conjunto de dados é formado por conjuntos de dados de perguntas e respostas existentes, conjuntos de dados traduzidos do inglês, e dados sintéticos criados com o modelo Gemini. Esses dados sintéticos foram desenvolvidos gerando pares de perguntas e respostas a partir de trechos selecionados que foram checados para precisão.
Como Criamos o Benchmark
A gente estudou diferentes conjuntos de dados já existentes e decidiu traduzi-los para várias línguas indianas pra tornar nosso benchmark mais útil. As línguas incluídas são Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Odia, Punjabi, Tamil e Telugu.
A gente também coletou novos dados diretamente da Wikipedia e de outras fontes, focando em conteúdo culturalmente importante. Ao amostrar vários parágrafos, conseguimos criar um conjunto diversificado e representativo de perguntas e respostas.
Limitações dos Métodos Existentes
No cenário atual de benchmarks de perguntas e respostas, tem muitos pra inglês, mas pouquíssimos pra línguas indianas. Os que existem muitas vezes faltam variedade e profundidade. Nosso objetivo é preencher essa lacuna fornecendo um conjunto de dados que não só tenha muitos pares de perguntas e respostas, mas que também cubra uma ampla gama de tópicos.
Enquanto a maioria dos conjuntos de dados foca em extrair informações, poucos lidam com a necessidade de Tarefas Generativas-onde as respostas podem não estar diretamente disponíveis no texto. Essa é uma área crucial, já que muitas perguntas exigem uma compreensão mais profunda ou síntese de informações.
O Papel da Geração Aumentada por Recuperação (RAG)
Numa sistemática chamada Geração Aumentada por Recuperação (RAG), duas partes importantes trabalham juntas: o recuperador e o gerador. O recuperador encontra o texto relevante, enquanto o gerador é responsável por criar a resposta final baseada naquele texto.
O INDIC QA BENCHMARK foi estruturado pra apoiar esse formato, onde cada par de pergunta-resposta está ligado ao seu contexto. Isso permite que pesquisadores avaliem quão bem os modelos conseguem trabalhar em sistemas desse tipo.
Avaliando os Modelos
A gente testou vários LLMs pra ver como eles se saem no nosso benchmark. Esses modelos incluem várias versões que foram especificamente treinadas em diferentes conjuntos de dados. A gente descobriu que, em geral, os modelos tiveram dificuldade com Línguas de baixo recurso em comparação com aquelas que têm melhor suporte.
Durante nossos testes, observamos que os modelos base tinham resultados inconsistentes. Porém, quando usamos o prompting de few-shot-onde damos alguns exemplos pra eles aprenderem-o desempenho melhorou. Isso mostra que fornecer mais contexto pode ajudar eles a responderem de forma mais precisa.
Principais Contribuições do INDIC QA BENCHMARK
- Um grande benchmark de avaliação especificamente para tarefas de perguntas e respostas em línguas indianas.
- Uma avaliação crítica de vários LLMs pra ver quão bem eles respondem perguntas nessas línguas.
- Um conjunto de dados diverso que cobre uma gama de tópicos, tornando-o adequado pra diferentes áreas como cultura, geografia e notícias.
Observações e Resultados
Das nossas experiências, a gente viu que o desempenho dos modelos base era muitas vezes inadequado. Mas, com o prompting de few-shot, eles deram respostas melhores ao encontrar respostas exatas em frases curtas dentro do contexto.
Além disso, o ajuste de instruções nos modelos-onde a gente treina eles mais em tarefas específicas-geralmente resultou em melhorias pra tarefas generativas, embora resultados mistos tenham sido vistos pra tarefas extrativas. Alguns modelos que foram especificamente treinados pra certas línguas tiveram desempenho melhor que modelos genéricos por terem dados mais adaptados.
Desafios e Considerações
Apesar do progresso feito com o INDIC QA BENCHMARK, ainda tem desafios significativos. A disponibilidade de conjuntos de dados de alta qualidade pra línguas indianas ainda é limitada, o que pode introduzir viés no nosso benchmark. Além disso, pode haver problemas relacionados à qualidade das traduções, especialmente ao mover conteúdo de uma língua pra outra.
A gente tentou ser o mais abrangente possível, mas o benchmark pode não representar efetivamente o desempenho em domínios completamente novos. Também reconhecemos que a subjetividade pode surgir na forma como as perguntas são interpretadas.
Conclusão
Resumindo, o INDIC QA BENCHMARK é um passo significativo na avaliação das habilidades de perguntas e respostas dos LLMs em línguas indianas. Ao criar um rico conjunto de dados que considera tanto tarefas de perguntas e respostas extrativas quanto generativas, a gente espera incentivar mais pesquisas e desenvolvimento nessa área.
Nossas descobertas mostram que, com os dados certos e métodos de treinamento, a gente pode melhorar o desempenho dos LLMs, mesmo em línguas que antes receberam pouca atenção. Isso vai ajudar a tornar a tecnologia mais acessível e eficaz para os falantes de várias línguas indianas.
Ao fornecer esse benchmark, a gente pretende apoiar pesquisadores que trabalham na área de processamento de línguas indianas, promovendo o avanço de ferramentas que conseguem entender e responder às diversas necessidades linguísticas.
Título: INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages
Resumo: Large Language Models (LLMs) have demonstrated remarkable zero-shot and few-shot capabilities in unseen tasks, including context-grounded question answering (QA) in English. However, the evaluation of LLMs' capabilities in non-English languages for context-based QA is limited by the scarcity of benchmarks in non-English languages. To address this gap, we introduce Indic-QA, the largest publicly available context-grounded question-answering dataset for 11 major Indian languages from two language families. The dataset comprises both extractive and abstractive question-answering tasks and includes existing datasets as well as English QA datasets translated into Indian languages. Additionally, we generate a synthetic dataset using the Gemini model to create question-answer pairs given a passage, which is then manually verified for quality assurance. We evaluate various multilingual Large Language Models and their instruction-fine-tuned variants on the benchmark and observe that their performance is subpar, particularly for low-resource languages. We hope that the release of this dataset will stimulate further research on the question-answering abilities of LLMs for low-resource languages.
Autores: Abhishek Kumar Singh, Rudra Murthy, Vishwajeet kumar, Jaydeep Sen, Ganesh Ramakrishnan
Última atualização: 2024-07-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.13522
Fonte PDF: https://arxiv.org/pdf/2407.13522
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/ayushayush591/Indic_RAG
- https://www.kaggle.com/competitions/chaii-hindi-and-tamil-question-answering
- https://github.com/AI4Bharat/IndicTrans2
- https://www.sarvam.ai/blog/announcing-openhathi-series
- https://ai.google.dev/gemma/docs
- https://ai.meta.com/blog/meta-llama-3/
- https://huggingface.co/sarvamai/OpenHathi-7B-Hi-v0.1-Base
- https://huggingface.co/bigscience/bloomz
- https://huggingface.co/google/gemma-7b-it
- https://huggingface.co/bigscience/bloomz-7b1
- https://huggingface.co/google/gemma-7b
- https://huggingface.co/ai4bharat/Airavata