Presentiamo MUTANT: un dataset Hinglish per il code-mixing
MUTANT è un dataset creato per studiare testi misti in Hinglish.
― 5 leggere min
Indice
Negli ultimi anni, l'uso di lingue diverse mescolate insieme, conosciuto come code-mixing, ha attirato attenzione. Una di queste combinazioni linguistiche è Hinglish, che unisce Hindi e inglese. Nonostante l'interesse crescente per le lingue mescolate, ci sono stati pochi sforzi per creare dataset che possano aiutare ad addestrare e testare modelli per queste lingue. Questo articolo parla della creazione di un dataset chiamato MUTANT, che si concentra su testi code-mixed in Hinglish con più frasi.
Il Bisogno di Dataset Multi-frase
Molti progressi nella tecnologia dipendono dall'avere buoni dataset per addestrare i sistemi. Tuttavia, la maggior parte dei dataset attuali è principalmente in lingue popolari come inglese, spagnolo e cinese. Questo lascia lingue come Hinglish, usate spesso ma con meno dati disponibili, in svantaggio. Questo rende difficile per i modelli imparare e capire come lavorare con queste lingue mescolate.
Cos'è MUTANT?
MUTANT è un dataset che si concentra su frasi lunghe che mescolano Hindi e inglese. È stato creato per colmare il divario nella disponibilità di dati per Hinglish. Questo dataset include 67.000 articoli e 85.000 esempi di testo code-mixed. Gli articoli provengono da due fonti: discorsi politici e articoli di notizie in Hindi. L'obiettivo del dataset è aiutare i ricercatori e gli sviluppatori a comprendere e lavorare meglio con le lingue code-mixed.
Sfide nella Creazione del Dataset
Creare il dataset MUTANT non è stato semplice. Ci sono state due principali sfide:
Trovare Buone Fonti di Dati: La maggior parte dei contenuti dei social media è corta e spesso confusa. Pertanto, abbiamo dovuto cercare fonti che fornissero testi lunghi e significativi. Abbiamo selezionato discorsi politici e articoli di notizie ricchi di contenuti.
Misurare il Code-mixing: È stato anche difficile definire e misurare cosa conta come testo code-mixed. Avevamo bisogno di un modo per decidere se un segmento di testo mescolava veramente Hindi e inglese o meno.
Fonti dei Dati
Gli articoli inclusi nel dataset MUTANT sono stati raccolti da vari posti:
- Discorsi Politici: Discorsi di figure politiche conosciute in India, che avevano anche trascrizioni disponibili online.
- Articoli di Notizie in Hindi: Articoli di giornali hindi popolari che trattano vari argomenti sono stati raccolti per ottenere un dataset ben bilanciato.
Le fonti scelte hanno portato a una raccolta di testi ricchi che riflettono accuratamente come Hinglish è usato nella comunicazione quotidiana.
Identificazione del Testo Code-mixed
Per identificare se un pezzo di testo è code-mixed, abbiamo sviluppato un pipeline specifico. Questo pipeline analizza il contenuto di un articolo e determina se ha una buona mescolanza di entrambe le lingue.
Informazioni Linguistiche a Livello di Token
Abbiamo esaminato attentamente le parole utilizzate nel testo. Ogni parola può essere classificata come Hindi, inglese o parola indipendente dalla lingua (come nomi o termini comuni). Analizzando queste parole, abbiamo valutato se le frasi negli articoli erano code-mixed.
Metriche per la Misurazione
Per valutare quanto bene potevamo identificare il testo code-mixed, abbiamo utilizzato delle metriche. Tra queste, una metrica chiave esaminava la percentuale di parole provenienti da lingue diverse, permettendoci di valutare quanto fosse mescolato il testo su una scala.
Costruire il Dataset
Dopo aver raccolto articoli e valutati per il code-mixing, abbiamo quindi compilato il dataset MUTANT. Ci siamo assicurati che contenesse un numero significativo di istanze di Hinglish identificate, che sono vitali per i ricercatori che lavorano in questo campo.
Metriche di Prestazione
Nel valutare quanto bene ha funzionato il nostro metodo, abbiamo guardato a:
- Accuratezza: Quanto spesso abbiamo identificato correttamente il testo code-mixed rispetto a quello realmente presente negli articoli?
- Tasso di Identificazione Falsata: Abbiamo etichettato erroneamente un pezzo di testo come code-mixed quando non lo era?
- Diversità: Quanto era variegato il dataset in termini di articoli contenuti?
Utilizzando queste metriche, ci siamo assicurati che il nostro dataset fosse robusto e utile per ricerche future.
Risultati e Intuizioni
Il dataset MUTANT, con il suo approccio all'identificazione del testo code-mixed, ha rivelato diverse intuizioni. Abbiamo scoperto che il metodo proposto è efficiente nel riconoscere schemi in Hinglish. È anche importante considerare le sfumature di come le persone usano lingue mescolate in contesti diversi.
Inoltre, ci siamo resi conto che avere un insieme più diversificato di articoli potrebbe aiutare a migliorare il dataset. Sebbene concentrarsi su discorsi politici e notizie sia un ottimo inizio, incorporare altri tipi di contenuto come social media, dialoghi di film e usi più informali potrebbe arricchire ulteriormente il dataset.
Limitazioni dello Studio
Anche se siamo orgogliosi del dataset MUTANT, ha le sue limitazioni. Per cominciare, il dataset attualmente si concentra esclusivamente su Hinglish. Inoltre, poiché abbiamo evitato i social media a causa della loro natura caotica, potremmo perdere alcune reali usi informali di Hinglish.
In aggiunta, i dataset che abbiamo utilizzato potrebbero riflettere bias specifici, come argomenti o stili di scrittura comuni in quegli articoli. Lavori futuri dovrebbero mirare ad ampliare il dataset e affrontare queste questioni per essere più inclusivi di diversi stili di Hinglish.
Conclusione
La creazione del dataset MUTANT segna un passo significativo verso l'avanzamento della comprensione di Hinglish come lingua code-mixed. Costruendo una base per testi code-mixed multi-frase, apriamo le porte a nuove ricerche e potenziali applicazioni nell'elaborazione del linguaggio naturale e nell'apprendimento automatico.
Il lavoro svolto da questo dataset non solo aiuta a lavorare con Hinglish, ma serve anche come esempio su come affrontare sfide simili in altre lingue code-mixed. Con ulteriori ricerche e sviluppo di risorse, possiamo sperare di migliorare le capacità dei modelli di comprendere e lavorare con le complessità del linguaggio umano.
Titolo: MUTANT: A Multi-sentential Code-mixed Hinglish Dataset
Estratto: The multi-sentential long sequence textual data unfolds several interesting research directions pertaining to natural language processing and generation. Though we observe several high-quality long-sequence datasets for English and other monolingual languages, there is no significant effort in building such resources for code-mixed languages such as Hinglish (code-mixing of Hindi-English). In this paper, we propose a novel task of identifying multi-sentential code-mixed text (MCT) from multilingual articles. As a use case, we leverage multilingual articles from two different data sources and build a first-of-its-kind multi-sentential code-mixed Hinglish dataset i.e., MUTANT. We propose a token-level language-aware pipeline and extend the existing metrics measuring the degree of code-mixing to a multi-sentential framework and automatically identify MCT in the multilingual articles. The MUTANT dataset comprises 67k articles with 85k identified Hinglish MCTs. To facilitate future research, we make the publicly available.
Autori: Rahul Gupta, Vivek Srivastava, Mayank Singh
Ultimo aggiornamento: 2023-02-22 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2302.11766
Fonte PDF: https://arxiv.org/pdf/2302.11766
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://drive.google.com/file/d/1CLs2E6C3ygbi3eJ5IvH4GbN4EE0mli5O/view?usp=sharing
- https://aamaadmiparty.org/media/press-releases
- https://www.inc.in/media/speeches
- https://www.pmindia.gov.in/hi/mann-ki-baat/
- https://www.pib.gov.in
- https://www.pmindia.gov.in/hi/news-updates/
- https://web.archive.org/web/20170706110804/
- https://www.wptdatabase.org/world-press-trends-2016-facts-and-figures
- https://www.bhaskar.com
- https://www.jagran.com
- https://github.com/ritwikmishra/devanagari-to-roman-script-transliteration
- https://github.com/microsoft/LID-tool
- https://jakevdp.github.io/PythonDataScienceHandbook/04.03-errorbars.html