INDIC QA BENCHMARK: Valutare modelli di linguaggio multilingue in India
Un nuovo dataset per valutare il question-answering nelle lingue indiane.
― 6 leggere min
Indice
- La Necessità di un Benchmark Multilingue
- Cos'è l'INDIC QA BENCHMARK?
- Come Abbiamo Creato il Benchmark
- Limitazioni dei Metodi Esistenti
- Il Ruolo della Generazione Aggiunta da Recupero (RAG)
- Valutare i Modelli
- Principali Contributi dell'INDIC QA BENCHMARK
- Osservazioni e Risultati
- Sfide e Considerazioni
- Conclusione
- Fonte originale
- Link di riferimento
I Modelli di Linguaggio di Grandi Dimensioni (LLM) sono programmi informatici che possono analizzare e rispondere al linguaggio umano. Funzionano bene con il testo in inglese, ma fanno fatica con altre lingue, comprese molte parlate in India. Questo è principalmente perché non ci sono abbastanza set di dati di alta qualità in quelle lingue per addestrare questi modelli per compiti specifici, come rispondere a domande in base al contesto.
Per affrontare questo problema, abbiamo creato l'INDIC QA BENCHMARK, un grande dataset progettato appositamente per 11 lingue principali in India. Questo dataset aiuterà i ricercatori a valutare quanto bene gli LLM possono rispondere a domande in queste lingue, specialmente dove non c'è molto supporto esistente.
La Necessità di un Benchmark Multilingue
L'India ospita una vasta popolazione di circa 1,43 miliardi di persone e molte lingue. Tuttavia, diverse di queste lingue mancano di risorse sufficienti, specialmente nel campo dell'Elaborazione del Linguaggio Naturale (NLP). Questo rende difficile per le tecnologie basate sulla comprensione del linguaggio funzionare bene in queste lingue.
Gli LLM sono addestrati su un sacco di dati testuali, ma anche con questo addestramento, i loro risultati possono essere variabili. Questa inconsistenza spesso nasce da difficoltà nel comprendere il contesto e imprecisioni nelle loro conoscenze sui compiti che stanno svolgendo.
Cos'è l'INDIC QA BENCHMARK?
L'INDIC QA BENCHMARK è uno strumento completo per valutare le capacità di risposta a domande degli LLM in varie lingue indiane. Include compiti in cui il modello deve estrarre informazioni direttamente dal testo (compiti estrattivi) e compiti in cui il modello deve generare risposte non esplicitamente presenti nel testo fornito (compiti astrattivi).
Il dataset è composto da dataset esistenti di domande e risposte, dataset tradotti dall'inglese e dati sintetici creati utilizzando il modello Gemini. Questi dati sintetici sono stati sviluppati generando coppie di domande e risposte a partire da brani selezionati, poi controllati per accuratezza.
Come Abbiamo Creato il Benchmark
Abbiamo studiato diversi dataset consolidati e scelto di tradurli in più lingue indiane per rendere il nostro benchmark più utile. Le lingue incluse sono Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Odia, Punjabi, Tamil e Telugu.
Abbiamo anche raccolto nuovi dati direttamente da Wikipedia e altre fonti, concentrandoci su contenuti culturalmente importanti. Campionando vari paragrafi, siamo riusciti a creare un set diversificato e rappresentativo di domande e risposte.
Limitazioni dei Metodi Esistenti
Nell'attuale panorama dei benchmark per la risposta a domande, ce ne sono molti per l'inglese, ma molto pochi per le lingue indiane. Quelli che esistono spesso mancano di varietà e profondità. Il nostro obiettivo è colmare questa lacuna fornendo un dataset che non solo ha molte coppie di domande e risposte, ma copre anche una vasta gamma di argomenti.
Mentre la maggior parte dei dataset si concentra sull'estrazione di informazioni, sono pochi quelli che affrontano la necessità di Compiti Generativi, dove le risposte potrebbero non essere direttamente disponibili nel testo. Questa è un'area cruciale poiché molte domande richiedono una comprensione più profonda o una sintesi delle informazioni.
Il Ruolo della Generazione Aggiunta da Recupero (RAG)
In un sistema chiamato Generazione Aggiunta da Recupero (RAG), due parti importanti lavorano insieme: il recuperatore e il generatore. Il recuperatore trova il testo rilevante, mentre il generatore è responsabile della creazione di una risposta finale basata su quel testo.
L'INDIC QA BENCHMARK è stato strutturato per supportare questo formato, dove ogni coppia di domande e risposte è collegata al suo contesto. Questo consente ai ricercatori di misurare quanto bene i modelli possono lavorare in tali sistemi.
Valutare i Modelli
Abbiamo testato vari LLM per vedere quanto bene si comportano nel nostro benchmark. Questi modelli includono più versioni appositamente addestrate su diversi dataset. Abbiamo scoperto che, in generale, i modelli si sono trovati in difficoltà con le Lingue a bassa risorsa rispetto a quelle con un miglior supporto.
Durante i nostri test, abbiamo osservato che i modelli base avevano risultati inconsistenti. Tuttavia, quando abbiamo utilizzato il prompting a pochi esempi-dove diamo loro qualche esempio da cui imparare-le loro prestazioni sono migliorate. Questo dimostra che fornire più contesto può aiutarli a rispondere in modo più accurato.
Principali Contributi dell'INDIC QA BENCHMARK
- Un ampio benchmark di valutazione specificamente per compiti di risposta a domande nelle lingue indiane.
- Una valutazione critica di vari LLM per vedere quanto bene rispondono a domande in queste lingue.
- Un dataset diversificato che copre una gamma di argomenti, rendendolo adatto a diversi ambiti come cultura, geografia e notizie.
Osservazioni e Risultati
Dai nostri esperimenti, abbiamo trovato che le prestazioni dei modelli base erano spesso inadeguate. Tuttavia, con il prompting a pochi esempi, producevano risposte migliori trovando risposte esatte in brevi frasi all'interno del contesto.
Inoltre, l'istruzione-tuning dei modelli-dove li alleniamo ulteriormente su compiti specifici-ha spesso portato a miglioramenti per i compiti generativi, anche se sono stati visti risultati misti per i compiti estrattivi. Alcuni modelli che sono stati specificamente addestrati per certe lingue hanno superato i modelli generici grazie a dati più mirati.
Sfide e Considerazioni
Nonostante i progressi fatti con l'INDIC QA BENCHMARK, ci sono ancora sfide notevoli. La disponibilità di dataset di alta qualità per le lingue indiane è ancora limitata, il che potrebbe introdurre bias nel nostro benchmark. Inoltre, potrebbero esserci problemi legati alla qualità delle traduzioni, specialmente quando si sposta contenuto da una lingua all'altra.
Ci siamo proposti di essere il più esaustivi possibile, ma il benchmark potrebbe non rappresentare efficacemente le prestazioni in domini completamente nuovi. Riconosciamo anche che la soggettività può emergere nel modo in cui le domande vengono interpretate.
Conclusione
In sintesi, l'INDIC QA BENCHMARK è un passo significativo verso la valutazione delle capacità di risposta a domande degli LLM nelle lingue indiane. Creando un dataset ricco che considera sia compiti di risposta estrattiva che generativa, speriamo di incoraggiare ulteriori ricerche e sviluppi in questo campo.
I nostri risultati mostrano che con i dati e i metodi di addestramento giusti, possiamo migliorare le prestazioni degli LLM, anche in lingue che in precedenza avevano ricevuto poca attenzione. Questo contribuirà, infine, a rendere la tecnologia più accessibile ed efficace per i parlanti di varie lingue indiane.
Fornendo questo benchmark, miriamo a supportare i ricercatori che lavorano nel campo dell'elaborazione del linguaggio indiano, promuovendo l'avanzamento di strumenti che possono comprendere e rispondere a diverse esigenze linguistiche.
Titolo: INDIC QA BENCHMARK: A Multilingual Benchmark to Evaluate Question Answering capability of LLMs for Indic Languages
Estratto: Large Language Models (LLMs) have demonstrated remarkable zero-shot and few-shot capabilities in unseen tasks, including context-grounded question answering (QA) in English. However, the evaluation of LLMs' capabilities in non-English languages for context-based QA is limited by the scarcity of benchmarks in non-English languages. To address this gap, we introduce Indic-QA, the largest publicly available context-grounded question-answering dataset for 11 major Indian languages from two language families. The dataset comprises both extractive and abstractive question-answering tasks and includes existing datasets as well as English QA datasets translated into Indian languages. Additionally, we generate a synthetic dataset using the Gemini model to create question-answer pairs given a passage, which is then manually verified for quality assurance. We evaluate various multilingual Large Language Models and their instruction-fine-tuned variants on the benchmark and observe that their performance is subpar, particularly for low-resource languages. We hope that the release of this dataset will stimulate further research on the question-answering abilities of LLMs for low-resource languages.
Autori: Abhishek Kumar Singh, Rudra Murthy, Vishwajeet kumar, Jaydeep Sen, Ganesh Ramakrishnan
Ultimo aggiornamento: 2024-07-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.13522
Fonte PDF: https://arxiv.org/pdf/2407.13522
Licenza: https://creativecommons.org/publicdomain/zero/1.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/ayushayush591/Indic_RAG
- https://www.kaggle.com/competitions/chaii-hindi-and-tamil-question-answering
- https://github.com/AI4Bharat/IndicTrans2
- https://www.sarvam.ai/blog/announcing-openhathi-series
- https://ai.google.dev/gemma/docs
- https://ai.meta.com/blog/meta-llama-3/
- https://huggingface.co/sarvamai/OpenHathi-7B-Hi-v0.1-Base
- https://huggingface.co/bigscience/bloomz
- https://huggingface.co/google/gemma-7b-it
- https://huggingface.co/bigscience/bloomz-7b1
- https://huggingface.co/google/gemma-7b
- https://huggingface.co/ai4bharat/Airavata