Sviluppi nel riassunto delle lingue indiane
Uno studio sulla sintesi dell'hindi e del gujarati usando modelli multilingue.
― 4 leggere min
Con l'aumento dei modelli multilingue, riassumere testi in lingue indiane come l'hindi e il gujarati sta diventando sempre più comune. Tuttavia, non ci sono molti dataset disponibili per queste lingue. Questo articolo parla di quanto siano efficaci diversi modelli multilingue per riassumere testi in lingue indiane.
Che cos'è il Riassunto di Testi?
Il riassunto di testi è il processo di prendere pezzi lunghi di testo, come articoli, e accorciarli mantenendo i punti principali. Ci sono due modi principali per riassumere un testo: estrattivo e astrattivo.
Riassunto Estrattivo: Questo metodo estrae frasi dal testo originale per creare un riassunto. Usa parti del testo così come sono, senza fare modifiche.
Riassunto Astrattivo: Questo metodo genera un riassunto creando nuove frasi basate sul testo originale. Offre un riassunto più simile a quello umano ma è anche più difficile da realizzare.
Questo articolo si concentra sul riassunto astrattivo, in particolare nelle lingue indiane.
Importanza del Riassunto nelle Lingue Indiane
L'India ha un gran numero di parlanti per lingue come l'hindi e il gujarati, rendendo essenziale avere buoni modelli di riassunto per queste lingue. I lavori precedenti si sono concentrati principalmente sull'inglese, lasciando un vuoto nel riassunto per le lingue indiane. Riassumere testi in queste lingue può aiutare in molti settori, compresi notizie e ricerche.
Modelli Multilingue
Recentemente, sono stati sviluppati modelli come mBART, MT5 e IndicBART. Questi modelli possono lavorare con più lingue, comprese varie lingue indiane. L'obiettivo di utilizzare questi modelli è migliorare il riassunto dei testi scritti in hindi e gujarati.
Approccio al Compito
Il compito prevedeva di creare riassunti per articoli scritti in tre lingue: inglese, hindi e gujarati. Il dataset fornito era diviso in set di addestramento, validazione e test. Il team ha usato due modelli principali, IndicBART e mT5, per i loro esperimenti.
Descrizione dei Dati
Il dataset fornito conteneva articoli con intestazioni, riassunti e testi in tutte e tre le lingue. Per la validazione, dal momento che non erano disponibili riassunti predefiniti, è stata utilizzata una parte più piccola dei dati di addestramento. Dopo vari esperimenti, sono state scelte le versioni con le migliori performance per la fase finale di test.
Modelli Utilizzati
IndicBART: Questo modello si concentra su undici lingue indiche più l'inglese. È stato testato su compiti di riassunto e traduzione mostrando buoni risultati.
mT5: Questo modello è stato costruito usando un dataset che include 101 lingue. La sua progettazione è simile a un altro modello chiamato T5.
Entrambi i modelli sono costruiti usando una struttura simile con dodici strati.
Aumento dei Dati
Per migliorare le performance, il team ha anche utilizzato l'aumento dei dati. Questo comporta l'aumento della quantità di dati di addestramento creando più esempi. Hanno scoperto che aggiungere più dati ha aiutato a migliorare significativamente i risultati.
Configurazione di Addestramento
L'addestramento dei modelli è stato fatto usando strumenti come HuggingFace API e PyTorch. Fattori chiave durante l'addestramento includevano il tasso di apprendimento e la lunghezza massima delle sequenze di input e output. I modelli sono stati affinandoti su più epoche per migliorare le loro performance.
Risultati degli Esperimenti
I risultati degli esperimenti sono stati misurati usando un sistema di punteggio chiamato ROUGE, che valuta la qualità dei riassunti prodotti confrontandoli con i riassunti di riferimento. I risultati sono stati divisi in due set: risultati di validazione e risultati di test.
Risultati del Set di Validazione
Il team ha condotto vari esperimenti sul set di validazione, il che li ha aiutati a capire quanto bene stavano performando i modelli. Hanno compilato i risultati in tabelle per presentare le loro scoperte in modo chiaro.
Risultati del Set di Test
Dopo aver validato i modelli, sono stati testati con il set di test ufficiale. Anche in questo caso, i risultati sono stati compilati in tabelle, mostrando l'efficacia di ciascun modello e approccio utilizzato durante gli esperimenti.
Risultati Chiave
Dai risultati, era chiaro che l'aumento dei dati fosse un passo vantaggioso. I modelli hanno performato meglio quando erano disponibili più dati. Confrontando IndicBART e mT5, IndicBART ha generalmente avuto risultati migliori per riassumere testi.
Conclusione
In questo studio, il team mirava a riassumere le lingue indiane utilizzando modelli multilingue avanzati. Hanno eseguito vari esperimenti con IndicBART e mT5, ottenendo risultati promettenti. Per l'hindi e il gujarati, si sono classificati bene tra i partecipanti, mentre la loro performance in inglese è stata anch'essa lodevole. Nonostante alcune limitazioni, come non usare modelli più grandi a causa di vincoli di risorse, i risultati offrono spunti preziosi per lavori futuri nel riassunto delle lingue indiane.
Titolo: Summarizing Indian Languages using Multilingual Transformers based Models
Estratto: With the advent of multilingual models like mBART, mT5, IndicBART etc., summarization in low resource Indian languages is getting a lot of attention now a days. But still the number of datasets is low in number. In this work, we (Team HakunaMatata) study how these multilingual models perform on the datasets which have Indian languages as source and target text while performing summarization. We experimented with IndicBART and mT5 models to perform the experiments and report the ROUGE-1, ROUGE-2, ROUGE-3 and ROUGE-4 scores as a performance metric.
Autori: Dhaval Taunk, Vasudeva Varma
Ultimo aggiornamento: 2023-03-29 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.16657
Fonte PDF: https://arxiv.org/pdf/2303.16657
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://pygments.org/
- https://pypi.python.org/pypi/Pygments
- https://dhavaltaunk08.github.io//
- https://www.iiit.ac.in/~vv
- https://conceptbase.sourceforge.net/mjf/
- https://yamadharma.github.io/
- https://kmitd.github.io/ilaria/
- https://name.example.com
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://github.com/borisveytsman/acmart
- https://www.ctan.org/tex-archive/macros/latex/contrib/els-cas-templates
- https://github.com/yamadharma/ceurart
- https://www.overleaf.com/project/5e76702c4acae70001d3bc87
- https://www.overleaf.com/latex/templates/template-for-submissions-to-ceur-workshop-proceedings-ceur-ws-dot-org/pkfscdkgkhcq