Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Valutare modelli linguistici multilingue nelle lingue indiche

Uno studio completo sulle performance dei modelli linguistici in 10 lingue indiche.

― 8 leggere min


Valutazione dei LLMValutazione dei LLMMultilingue Spiegatadiverse.modelli linguistici tra cultureUn'analisi approfondita per valutare i
Indice

Valutare i modelli di linguaggio grandi e multilingue (LLM) è un compito difficile a causa di varie sfide. Queste includono una mancanza di benchmark diversificati, alcuni benchmark utilizzati nel training dei modelli, e l'assenza di dettagli culturali locali nei benchmark tradotti. Questo studio esplora come gli esseri umani e gli LLM valutano i modelli in diverse lingue e culture. Abbiamo testato 30 modelli in 10 lingue indiche, effettuando 90.000 valutazioni umane e 30.000 valutazioni LLM. I nostri risultati mostrano che modelli come GPT-4o e Llama-3 70B hanno avuto buone performance per la maggior parte delle lingue indiche.

Pipeline di Valutazione

Il nostro processo di valutazione ha coinvolto diversi passaggi. Prima di tutto, abbiamo raccolto una vasta gamma di prompt di valutazione con input da parte di parlanti nativi. Secondo, abbiamo generato risposte dai modelli selezionati per questi prompt. Terzo, abbiamo effettuato le valutazioni delle risposte generate in due contesti: valutazione diretta e Confronto a coppie, utilizzando sia valutatori umani che un LLM. Infine, abbiamo creato delle classifiche basate sui punteggi ottenuti e analizzato quanto accordo ci fosse tra valutatori umani e LLM.

Contesto

I modelli di linguaggio grandi hanno fatto grandi progressi negli ultimi anni, ma capire le loro capacità può essere complicato. Il benchmarking è diventato il modo principale per valutare questi modelli, con molti benchmark noti utilizzati per controlli di qualità. Tuttavia, il benchmarking standard ha diversi problemi. I benchmark popolari possono essere trovati online e potrebbero già essere inclusi nei dati di training per gli LLM, rendendoli ingiusti per la valutazione. Questa situazione, nota come contaminazione dei dataset di test, può verificarsi durante il training e il fine-tuning. C'è bisogno di una valutazione più dinamica con l'assistenza umana, anche se la Valutazione Umana può essere dispendiosa in termini di tempo e costi. Ecco perché utilizzare gli LLM come valutatori è diventato più popolare.

La maggior parte delle ricerche sul training e la valutazione degli LLM si concentra sull'inglese. Studi recenti indicano che gli LLM performano peggio con le lingue non inglesi, specialmente quelle che usano sistemi di scrittura diversi e lingue con poche risorse. Gli studi hanno anche evidenziato che modelli di punta, come GPT-4, tendono ad allinearsi maggiormente con le norme occidentali. Questo ha portato allo sviluppo di modelli progettati per lingue, culture e regioni specifiche, incluse quelle indiche, arabe, africane, cinesi, europee e indonesiane. Le sfide della valutazione multilingue derivano dalla disponibilità limitata di benchmark multilingue, dalla mancanza di diversità linguistica all'interno di quei benchmark e dal rischio di contaminazione. Inoltre, molti benchmark multilingue sono traduzioni di benchmark in inglese, perdendo importanti contesti culturali e linguistici.

Il Nostro Lavoro

In questo studio, abbiamo condotto la più grande valutazione umana multilingue di LLM a noi nota, con 90.000 valutazioni in 10 lingue indiche. Abbiamo utilizzato un nuovo set di prompt, creati indipendentemente da parlanti nativi, per rappresentare argomenti generali e domande culturalmente specifiche. Abbiamo impiegato valutatori umani provenienti da varie regioni, concentrandoci particolarmente su comunità rurali e sottorappresentate in India.

Oltre alle valutazioni umane, abbiamo anche utilizzato gli LLM come valutatori. Lo abbiamo fatto per approfondire come si accordano le valutazioni umane e LLM e per valutare la sicurezza, per la quale considerazioni etiche hanno limitato il coinvolgimento umano.

Contributi

Il nostro lavoro include i seguenti contributi chiave:

  1. Abbiamo completato 90.000 valutazioni di esseri umani in 10 lingue indiche, valutando 30 modelli indici e multilingue utilizzando dataset culturalmente sfumati.
  2. Abbiamo effettuato le stesse valutazioni utilizzando LLM come valutatori, permettendoci di analizzare quanto bene si accordano le valutazioni umane e LLM.
  3. Abbiamo creato classifiche basate su valutazioni sia da fonti umane che LLM e esaminato tendenze e pregiudizi tra diverse lingue e modelli.

Lavori Correlati

I benchmark di valutazione multilingue cercano di valutare vari modelli utilizzando i benchmark multilingue disponibili. Alcuni hanno rilasciato test generativi multilingue che coprono più lingue. Altri benchmark includono XGLUE e XTREME, che si concentrano anch'essi su compiti multilingue.

Per quanto riguarda i benchmark indici, il primo benchmark NLU indico, IndicGLUE, è stato rilasciato per 11 lingue, successivamente ampliato per coprire tutte le 22 lingue indiche. Altri benchmark valutano compiti come la traduzione automatica e il question-answering per le lingue indiche.

La valutazione umana è stata impiegata in vari studi per valutare gli LLM o per creare standard di riferimento per prompt di valutazione culturalmente sfumati. I valutatori LLM sono stati utili in molti studi grazie alla loro capacità di seguire istruzioni, anche se alcuni studi hanno mostrato pregiudizi nelle loro valutazioni. Lavori recenti hanno evidenziato la necessità di una valutazione multilingue degli LLM, sottolineando i limiti dei benchmark esistenti e sollevando interrogativi sui valori culturali nei modelli linguistici.

Configurazione della Valutazione

Abbiamo valutato 10 lingue indiane: Hindi, Tamil, Telugu, Malayalam, Kannada, Marathi, Odia, Bengali, Gujarati e Punjabi. I nostri prompt includevano 20 domande per lingua, coprendo salute, finanza e argomenti culturalmente sfumati create da parlanti nativi.

Abbiamo valutato vari modelli di lingua indiana popolari e modelli LLM proprietari di punta. La maggior parte degli LLM indici sono versioni fine-tuned di modelli open-source. Pertanto, abbiamo incluso versioni di istruzione di questi modelli per valutare le loro performance con i dati indici.

È importante notare che confrontare modelli open-source con sistemi basati su API potrebbe non essere del tutto equo a causa dei diversi componenti in gioco. Abbiamo trattato tutti i modelli allo stesso modo nel nostro studio per coerenza.

Strategie di Valutazione

Abbiamo usato due strategie per valutare le risposte generate: confronto a coppie e valutazione diretta. Per il confronto a coppie, abbiamo confrontato le risposte dei modelli allo stesso prompt usando il sistema di rating Elo, che ci aiuta a misurare e classificare i modelli in base alle loro performance.

Nella valutazione diretta, sia annotatori umani che un LLM hanno valutato ogni coppia domanda-risposta in base a tre criteri: Accettabilità Linguistica, Qualità del Compito e Allucinazione. Il ranking di ogni modello è stato determinato attraverso un sistema di punteggio.

Valutatori Umani e LLM

I valutatori umani hanno svolto i loro compiti su smartphone, dove hanno rivisto i prompt e le risposte corrispondenti dei modelli. Sono stati invitati a selezionare quale risposta fosse migliore o se entrambe le risposte fossero equivalenti o scarse.

Il valutatore LLM ha seguito una configurazione simile ma ha usato un formato di prompt diverso. Istruzioni dettagliate sono state fornite sia ai valutatori umani che a quelli LLM per garantire chiarezza nella valutazione delle risposte.

Analisi dell'Accordo

Per valutare la qualità delle annotazioni umane e l'accordo tra umani e LLM, abbiamo valutato l'accordo inter-annotatore. Abbiamo usato metriche come Percentuale di Accordo e punteggi di Fleiss Kappa per misurare la coerenza delle valutazioni.

Abbiamo anche confrontato i ranking delle valutazioni umane e LLM usando il Tau di Kendall, permettendoci di valutare il livello di accordo tra i due valutatori.

Analisi dei Pregiudizi

La nostra analisi ha cercato vari pregiudizi, tra cui il pregiudizio di posizione e il pregiudizio di verbosità. Abbiamo controllato per pregiudizi invertendo le scelte nei confronti a coppie e misurando quanto rimanessero coerenti le risposte.

I nostri risultati non hanno mostrato pregiudizi significativi nella scelta delle opzioni durante le valutazioni. Tuttavia, gli LLM tendevano a essere più decisivi, spesso favorendo una risposta rispetto a un'altra anche quando entrambe le risposte avevano problemi.

Valutazione della Sicurezza

Per l'analisi di sicurezza, abbiamo utilizzato un dataset specifico progettato per suscitare risposte inappropriate e abbiamo valutato le uscite dai diversi modelli usando valutatori LLM. Abbiamo confrontato queste uscite con una lista predefinita di termini per controllare contenuti problematici.

Risultati

Le nostre valutazioni hanno rivelato che i modelli indici più piccoli spesso hanno superato i modelli open-source da cui erano basati. Modelli più grandi come GPT-4o hanno mostrato le migliori performance complessive.

Abbiamo scoperto che i valutatori LLM si accordavano bene con gli umani nella valutazione a coppie, ma avevano un accordo inferiore nella valutazione diretta, specialmente per risposte che coinvolgevano sfumature culturali.

Conclusioni

Questo studio ha fornito valutazioni estese degli LLM multilingue combinando i punteggi dei valutatori umani e LLM. Abbiamo evidenziato le sfide e i pregiudizi nelle valutazioni multilingue, sottolineando la necessità di un sistema di valutazione ibrido che includa le prospettive umane.

I nostri risultati hanno indicato che, mentre gli LLM possono catturare tendenze generali, hanno lottato con le valutazioni culturalmente sfumate. Questo suggerisce che il contributo umano rimane fondamentale nella valutazione dei modelli linguistici attraverso diverse lingue e contesti.

Lavori Futuri

Andando avanti, miriamo ad estendere la nostra valutazione a più lingue indiche e aumentare il numero di prompt utilizzati nelle nostre valutazioni. Stiamo anche cercando di incorporare più modelli man mano che diventano disponibili.

Inoltre, pianifichiamo di indagare ulteriormente i pregiudizi nelle valutazioni e migliorare la robustezza della nostra configurazione di valutazione, garantendo una comprensione completa delle performance multilingue nei modelli di linguaggio.

Fonte originale

Titolo: PARIKSHA: A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data

Estratto: Evaluation of multilingual Large Language Models (LLMs) is challenging due to a variety of factors -- the lack of benchmarks with sufficient linguistic diversity, contamination of popular benchmarks into LLM pre-training data and the lack of local, cultural nuances in translated benchmarks. In this work, we study human and LLM-based evaluation in a multilingual, multi-cultural setting. We evaluate 30 models across 10 Indic languages by conducting 90K human evaluations and 30K LLM-based evaluations and find that models such as GPT-4o and Llama-3 70B consistently perform best for most Indic languages. We build leaderboards for two evaluation settings - pairwise comparison and direct assessment and analyze the agreement between humans and LLMs. We find that humans and LLMs agree fairly well in the pairwise setting but the agreement drops for direct assessment evaluation especially for languages such as Bengali and Odia. We also check for various biases in human and LLM-based evaluation and find evidence of self-bias in the GPT-based evaluator. Our work presents a significant step towards scaling up multilingual evaluation of LLMs.

Autori: Ishaan Watts, Varun Gumma, Aditya Yadavalli, Vivek Seshadri, Manohar Swaminathan, Sunayana Sitaram

Ultimo aggiornamento: 2024-10-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.15053

Fonte PDF: https://arxiv.org/pdf/2406.15053

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Link di riferimento

Altro dagli autori

Articoli simili