Creare set di dati di valutazione per lingue a bassa risorsa
Nuovi set di dati aiutano a valutare i modelli di linguaggio nelle lingue meno parlate.
― 7 leggere min
Indice
I modelli linguistici sono strumenti che aiutano i computer a capire e generare il linguaggio umano. Questi modelli hanno bisogno di Set di Dati di Valutazione per misurare la loro qualità. Però, molte lingue, soprattutto quelle meno parlate, non hanno set di dati del genere. Questo rende difficile capire quanto siano bravi i modelli linguistici in queste lingue.
In questo articolo, presentiamo un nuovo modo per creare set di dati di valutazione specificamente per le lingue che hanno una traduzione del Nuovo Testamento. Questo metodo ci permette di usare i dati esistenti in inglese per creare risorse preziose senza dover fare un sacco di lavoro umano costoso.
La Necessità di Set di Dati di Valutazione
I set di dati di valutazione sono fondamentali per confrontare diversi modelli linguistici. Per esempio, quando testiamo un compito di domanda-risposta, possiamo vedere quanto bene si comportano due modelli e capire i loro punti di forza e di debolezza. Sfortunatamente, la maggior parte dei set di dati è disponibile solo per lingue popolari come l'inglese, creando un divario per le lingue che non sono ampiamente parlate.
I modelli linguistici, come BERT, usano questi set di dati per apprendere. La mancanza di risorse per le lingue a basso supporto ha reso difficile la ricerca sui modelli linguistici in queste aree, limitando i progressi nella tecnologia e nell’accessibilità per chi parla queste lingue.
Presentiamo PrOnto
Abbiamo creato PrOnto, un nuovo set di dati che utilizza le traduzioni del Nuovo Testamento in varie lingue per costruire compiti di valutazione. Questo set di dati prende le annotazioni in inglese dalla parte del Nuovo Testamento di un set di dati più ampio chiamato OntoNotes e applica quelle annotazioni alle traduzioni in altre lingue. Così facendo, forniamo set di dati di alta qualità senza bisogno di un ampio lavoro di annotazione umana.
Questo approccio prevede di abbinare i versi del Nuovo Testamento in inglese con i versi tradotti e trasferire automaticamente le annotazioni. Poiché le traduzioni del Nuovo Testamento sono comuni, questo metodo apre strade per valutare i modelli linguistici in molte lingue.
Obiettivi e Metodi
I nostri obiettivi principali sono:
- Pubblicare set di dati di valutazione per cinque compiti diversi attraverso varie traduzioni del Nuovo Testamento.
- Condividere il sistema che abbiamo sviluppato per questo set di dati, rendendolo accessibile a chiunque e permettendo loro di espanderlo a qualsiasi lingua con una traduzione del Nuovo Testamento.
- Condurre esperimenti per mostrare quanto sia utile questo set di dati per valutare la qualità dei modelli linguistici.
I compiti che abbiamo creato misurano diversi aspetti della comprensione linguistica, come contare i soggetti nelle frasi o identificare il modo delle frasi. Crediamo che questi compiti offriranno spunti su quanto bene funzionano i modelli linguistici in varie lingue.
Lavori Correlati
Il campo dei modelli linguistici è cresciuto notevolmente, specialmente con l'introduzione di modelli come BERT. Questi modelli vengono testati con vari compiti per controllare le loro prestazioni. Ogni compito si concentra su diversi aspetti del linguaggio, come la grammatica o il significato.
La maggior parte dei set di dati disponibili per la valutazione dei modelli si concentra principalmente sulla comprensione del significato. Al contrario, ci sono meno risorse per le lingue a basso supporto, rendendo difficile valutare completamente le capacità dei loro modelli. Molti studi si basano solo su un paio di set di dati, che spesso non coprono l'intera gamma delle caratteristiche linguistiche.
Il Set di Dati OntoNotes
OntoNotes è una risorsa ricca che fornisce vari tipi di annotazioni per la lingua inglese. Include annotazioni per grammatica, significato e coreferenza, che è quando una parola si riferisce a un'altra parola nel testo. La Versione Facile da Leggere del Nuovo Testamento, contenuta in OntoNotes, è particolarmente utile per il nostro progetto.
Allineando i versi di questa versione inglese con le traduzioni in altre lingue, possiamo creare valutazioni preziose senza necessità di ulteriore lavoro umano. In questo modo, possiamo usare conoscenze esistenti per migliorare la nostra comprensione di diverse lingue.
Elaborazione delle Traduzioni
Per creare il nostro set di dati, abbiamo usato le traduzioni del Nuovo Testamento disponibili in un repository online specifico. Abbiamo incluso solo quelle traduzioni che hanno abbastanza versi allineati con il set di dati OntoNotes. Dopo aver elaborato queste traduzioni, abbiamo raccolto una gamma diversificata di set di dati in più lingue.
Durante l'elaborazione, abbiamo dovuto considerare varie sfide legate a come i versi si allineano con le frasi di OntoNotes. Alcuni versi possono contenere più frasi o possono essere combinati con altri, richiedendo una gestione attenta per garantire annotazioni accurate.
Compiti di Valutazione
Abbiamo sviluppato cinque compiti specifici per valutare i modelli linguistici:
Conteggio delle Citazioni Non Pronominali (NMC): Questo compito prevede di prevedere quanti riferimenti non pronominali appaiono in un verso. Richiede di capire quali parti di una frase potrebbero riferirsi alla stessa entità.
Nome Proprio nel Soggetto (PNS): Questo compito verifica se il soggetto della prima frase contiene un nome proprio. Si concentra sull'identificazione delle frasi nominali all'interno delle frasi.
Modo della Frase (SM): Questo compito prevede di prevedere se il modo di una frase è dichiarativo, interrogativo o imperativo. Questo aiuta a valutare come il linguaggio trasmette diversi tipi di affermazioni.
Stesso Significato (SS): Dati due versi, questo compito prevede di prevedere se usano lo stesso significato di una parola. Questo valuta come i significati possono cambiare in diversi contesti.
Conteggio dei Medesimi Argomenti (SAC): Questo compito esamina se due usi di un verbo hanno lo stesso numero di argomenti. Aiuta a capire come funzionano i verbi in diverse traduzioni.
Configurazione Sperimentale
Per valutare la qualità dei nostri compiti, abbiamo impiegato un modello di classificazione delle sequenze applicato a varie lingue e modelli. Abbiamo incluso molte lingue per raccogliere spunti su quanto bene funzionano i nostri metodi.
Gli esperimenti hanno coperto lingue a basso supporto così come alcune più parlate. Diversi modelli pre-addestrati, inclusi BERT e RoBERTa, sono stati testati per vedere come si sono comportati sui nostri compiti.
Risultati e Discussione
I nostri risultati hanno mostrato che la qualità delle nostre annotazioni proiettate era generalmente buona. In molti casi, i modelli hanno ottenuto prestazioni superiori alla linea di base, indicando che i nostri compiti sono efficaci nella valutazione della qualità dei modelli.
Per i set di dati in inglese, i modelli sono riusciti a comportarsi bene nella maggior parte dei compiti. Tuttavia, alcuni compiti si sono rivelati più impegnativi di altri, evidenziando che non tutti i compiti sono ugualmente facili o difficili per i diversi modelli.
Guardando le lingue a medio supporto, abbiamo trovato risultati simili. I modelli monolingui generalmente hanno performato meglio dei modelli multilingue, come ci aspettavamo. Tuttavia, sono emersi alcuni risultati sorprendenti, che indicano che i nostri compiti sono diversificati e richiedono diverse abilità linguistiche.
Quando abbiamo esaminato le lingue a basso supporto, i risultati variavano notevolmente. Molti modelli non hanno superato la linea di base, evidenziando le sfide che queste lingue affrontano con risorse limitate. Questo rafforza la necessità di avere più set di dati disponibili per supportare lo sviluppo della tecnologia linguistica in queste aree.
Conclusione
PrOnto rappresenta un passo significativo verso il miglioramento della valutazione dei modelli linguistici per le lingue a basso supporto. Utilizzando le traduzioni esistenti del Nuovo Testamento, possiamo creare set di dati utili che non si basano pesantemente su annotazioni umane. I nostri risultati suggeriscono che i compiti che abbiamo sviluppato sono significativi e possono fornire spunti preziosi sulla qualità dei modelli, anche quando applicati a lingue lontane dall'inglese.
In futuro, speriamo di ampliare il nostro lavoro, affinando i compiti esistenti e sviluppandone di nuovi. Invitiamo altri a contribuire a questo sforzo, rendendo la tecnologia linguistica più accessibile in diverse lingue e culture.
Titolo: PrOnto: Language Model Evaluations for 859 Languages
Estratto: Evaluation datasets are critical resources for measuring the quality of pretrained language models. However, due to the high cost of dataset annotation, these resources are scarce for most languages other than English, making it difficult to assess the quality of language models. In this work, we present a new method for evaluation dataset construction which enables any language with a New Testament translation to receive a suite of evaluation datasets suitable for pretrained language model evaluation. The method critically involves aligning verses with those in the New Testament portion of English OntoNotes, and then projecting annotations from English to the target language, with no manual annotation required. We apply this method to 1051 New Testament translations in 859 and make them publicly available. Additionally, we conduct experiments which demonstrate the efficacy of our method for creating evaluation tasks which can assess language model quality.
Autori: Luke Gessler
Ultimo aggiornamento: 2024-03-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.12612
Fonte PDF: https://arxiv.org/pdf/2305.12612
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.