Costruire risorse linguistiche per le lingue slavo-meridionali
Una nuova collezione supporta la tecnologia linguistica per le lingue slave meridionali.
― 5 leggere min
Indice
Questo articolo parla di una grande raccolta di testi digitali da diverse lingue slave meridionali, tra cui sloveno, croato, bosniaco, montenegrino, serbo, macedone e bulgaro. L'obiettivo di questa raccolta è creare risorse che possano aiutare a migliorare varie tecnologie legate alla lingua, come strumenti di traduzione e programmi di analisi del Testo.
La raccolta totale contiene 13 miliardi di parole da 26 milioni di documenti. È la prima del suo genere che mette insieme dati da tutte queste lingue in modo comparabile. Questo significa che i testi sono stati raccolti usando gli stessi metodi e processati in modo simile, il che permette ai ricercatori di fare analisi consistenti tra le diverse lingue.
Contesto sulle Lingue Slave Meridionali
Le lingue slave meridionali sono un gruppo parlato principalmente in Europa Centrale e Sudorientale. Questo include paesi come Slovenia, Croazia, Bosnia ed Erzegovina, Montenegro, Serbia, Macedonia del Nord e Bulgaria. Molte di queste lingue hanno risorse limitate per lo sviluppo tecnologico, rendendo più difficile costruire strumenti linguistici efficaci.
Report recenti evidenziano che queste lingue spesso non hanno sufficiente supporto per le tecnologie linguistiche fondamentali. Ad esempio, i modelli linguistici e i sistemi di traduzione automatica hanno bisogno di molti dati testuali per funzionare bene, e queste lingue spesso mancano di questi dati. Questa raccolta mira a risolvere questo problema fornendo una ricca fonte di testi dal web.
Come Sono Stati Raccolti i Dati
I dati per questi corpora web sono stati raccolti usando un metodo chiamato web crawling. Questo comporta la raccolta di testi da siti web in modo automatico, concentrandosi principalmente sui domini nazionali di primo livello dei paesi dove si parlano queste lingue. Ad esempio, i testi sloveni sono stati raccolti da siti web che finiscono con .si.
Il processo di web crawling non ha solo mirato a questi domini nazionali, ma ha anche incluso altri domini se erano collegati ai siti web nazionali. Questo era importante per assicurarsi di avere un dataset abbastanza ampio per fini di ricerca. Dopo aver raccolto i testi, sono stati svolti una serie di passi per pulire e organizzare i dati. Questo includeva la rimozione di contenuti indesiderati, duplicati e testi molto brevi per mantenere solo dati di alta qualità.
Annotazioni Linguistiche e Informazioni sul Genere
Una volta raccolti i corpora web, sono stati arricchiti con annotazioni linguistiche. Questo significa che i testi sono stati analizzati per identificare diverse caratteristiche linguistiche, come grammatica e struttura delle frasi. Questo si fa usando uno strumento specifico di elaborazione linguistica progettato per le lingue slave meridionali, che aiuta a rendere i testi più facili da utilizzare per i ricercatori.
Inoltre, ogni testo è stato etichettato con informazioni di genere. I generi si riferiscono al tipo di contenuto, come articoli di notizie, materiali promozionali, documenti legali e altro. Questa classificazione è utile perché permette ai ricercatori di vedere come diversi tipi di contenuto siano distribuiti tra le varie lingue.
Risultati Chiave dall'Analisi
Analizzando i generi presenti nei testi raccolti, è emerso che ci sono differenze notevoli tra le lingue. Ad esempio, i testi web provenienti da paesi con economie più forti, come la Slovenia, contenevano più contenuti promozionali. Al contrario, i testi di paesi meno sviluppati erano principalmente articoli di notizie.
Questa tendenza suggerisce una relazione tra il tipo di contenuto disponibile sul web e lo stato economico di ciascun paese. Man mano che i paesi si sviluppano, la loro presenza online diventa più diversificata, mostrando una gamma più ampia di tipi di contenuto oltre alle sole notizie.
I dati hanno mostrato che tra le sette lingue, i generi più comuni erano notizie, informazioni e testi promozionali. Tuttavia, alcuni generi, come testi legali e letterari, erano molto meno rappresentati.
L'Importanza di Questa Ricerca
Lo sviluppo di questi corpora web rappresenta un passo significativo per le lingue slave meridionali. Sono le raccolte di testi più grandi disponibili oggi per queste lingue. Più importante ancora, forniscono una base per future ricerche e sviluppo tecnologico.
Avere accesso a dataset così ampi e vari può aiutare nell'addestramento di modelli linguistici, che possono poi essere utilizzati per creare servizi di traduzione migliori e altre tecnologie legate alla lingua. Ad esempio, questi corpora supporteranno lo sviluppo di strumenti che possono riassumere testi, identificare sentimenti o persino generare nuovi contenuti.
Direzioni Future
Guardando al futuro, ci sono piani per continuare a costruire e affinare queste risorse linguistiche. L'obiettivo è mantenere i dati aggiornati e ampliare i tipi di analisi che possono essere effettuate con essi.
Uno dei focus sarà sulle valutazioni manuali delle classificazioni di genere per garantire accuratezza. I ricercatori sperano di indagare sulle tendenze e sui bias che potrebbero sorgere dall'uso di strumenti linguistici automatizzati, essenziale per garantire uno sviluppo tecnologico equo tra le lingue.
Inoltre, ci saranno sforzi continui per creare nuove tecnologie linguistiche utilizzando questi corpora. Questo include esplorare come diversi generi influenzano l'uso della lingua e come il significato semantico possa cambiare nel tempo.
Conclusione
In sintesi, la creazione di corpora web comparabili per le lingue slave meridionali segna un importante avanzamento nel campo dell'elaborazione del linguaggio. Mettendo insieme testi da varie lingue, questa collezione non solo serve bisogni di ricerca immediati, ma apre anche la porta a future innovazioni tecnologiche.
Man mano che i ricercatori continuano a lavorare con queste risorse, si aspettano che le intuizioni ottenute portino a tecnologie linguistiche migliorate che possano beneficiare i parlanti delle lingue slave meridionali e contribuire a un campo più ampio di elaborazione del linguaggio naturale.
L'impegno continuo per espandere e migliorare questi corpora riflette una dedizione alla diversità linguistica e all'importanza di ogni lingua nell'era digitale.
Titolo: CLASSLA-web: Comparable Web Corpora of South Slavic Languages Enriched with Linguistic and Genre Annotation
Estratto: This paper presents a collection of highly comparable web corpora of Slovenian, Croatian, Bosnian, Montenegrin, Serbian, Macedonian, and Bulgarian, covering thereby the whole spectrum of official languages in the South Slavic language space. The collection of these corpora comprises a total of 13 billion tokens of texts from 26 million documents. The comparability of the corpora is ensured by a comparable crawling setup and the usage of identical crawling and post-processing technology. All the corpora were linguistically annotated with the state-of-the-art CLASSLA-Stanza linguistic processing pipeline, and enriched with document-level genre information via the Transformer-based multilingual X-GENRE classifier, which further enhances comparability at the level of linguistic annotation and metadata enrichment. The genre-focused analysis of the resulting corpora shows a rather consistent distribution of genres throughout the seven corpora, with variations in the most prominent genre categories being well-explained by the economic strength of each language community. A comparison of the distribution of genre categories across the corpora indicates that web corpora from less developed countries primarily consist of news articles. Conversely, web corpora from economically more developed countries exhibit a smaller proportion of news content, with a greater presence of promotional and opinionated texts.
Autori: Nikola Ljubešić, Taja Kuzman
Ultimo aggiornamento: 2024-03-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.12721
Fonte PDF: https://arxiv.org/pdf/2403.12721
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://macocu.eu/
- https://www.sketchengine.eu/sltenten-slovenian-corpus/
- https://www.sketchengine.eu/bgtenten-bulgarian-corpus/
- https://commoncrawl.org
- https://archive.org
- https://oscar-project.github.io/documentation/versions/oscar-2301/
- https://github.com/macocu/MaCoCu-crawler
- https://corpus.tools/wiki/Justext
- https://corpus.tools/wiki/Onion
- https://github.com/bitextor/monotextor/releases/tag/v1.1
- https://github.com/macocu/Monolingual-Curation/
- https://github.com/CLD2Owners/cld2
- https://github.com/mbanon/fastspell
- https://www.clarin.si/repository/xmlui/discover
- https://pypi.org/project/prevert/
- https://huggingface.co/classla/xlm-roberta-base-multilingual-text-genre-classifier
- https://slobench.cjvt.si/
- https://pypi.org/project/classla/
- https://www.clarin.si/info/concordances/
- https://www.clarin.si/info/k-centre/classla-web-bigger-and-better-web-corpora-for-croatian-serbian-and-slovenian-on-clarin-si-concordancers/
- https://www.clarin.si/ske/
- https://huggingface.co/classla/xlm-r-bertic
- https://huggingface.co/gordicaleksa/YugoGPT
- https://emma.ijs.si/en/about-project/
- https://www.clarin.si/info/k-centre/workshops/classla-express/
- https://www.clarin.si/