Sci Simple

New Science Research Articles Everyday

# Informatica # Calcolo e linguaggio # Apprendimento automatico

Sentimento sui trasporti pubblici in Africa subsahariana

Analizzando le esperienze dei pendolari in Kenya, Tanzania e Sudafrica.

Rozina L. Myoya, Vukosi Marivate, Idris Abdulmumin

― 8 leggere min


Sentimenti sul trasporto Sentimenti sul trasporto in Africa mezzi pubblici. Esaminando i pensieri dei pendolari sui
Indice

Il trasporto pubblico gioca un ruolo fondamentale nella vita quotidiana di milioni di persone in tutto il mondo. Nell’Africa sub-sahariana, i sistemi di autobus, le ferrovie e i taxi-minibus sono vitali per i pendolari. Tuttavia, questi sistemi spesso ricevono meno attenzione rispetto ad altri settori come la sanità o l'istruzione, portando a sfide nella qualità del servizio e nell'esperienza dell'utente. Capire cosa pensano i pendolari del trasporto pubblico può aiutare a migliorare questi sistemi, ma come possiamo raccogliere e analizzare queste informazioni in modo efficiente?

Con l’ascesa dei Social Media, le persone sono più vocali riguardo alle loro esperienze. Piattaforme come Twitter (ora X) sono diventate ottimi canali per i pendolari per condividere i loro pensieri e opinioni. Questo fornisce una fonte ricca di dati che può essere utilizzata per valutare il sentimento pubblico. Quindi, facciamo un viaggio nel mondo del sentiment degli utenti del trasporto pubblico, in particolare in Kenya, Tanzania e Sudafrica!

La necessità di analizzare il sentiment degli utenti

Perché dovremmo preoccuparci di cosa pensano gli utenti del trasporto pubblico? Beh, capire il sentiment dei pendolari può portare a servizi migliori e a esperienze utente migliorate. Con molte persone che dipendono dal trasporto pubblico, è essenziale per le autorità di transito sapere dove stanno facendo bene e dove stanno sbagliando.

Ad esempio, se molti pendolari esprimono Preoccupazioni per la sicurezza, è un chiaro segnale che qualcosa deve essere fatto. Al contrario, se ci sono elogi per un nuovo servizio di autobus, potrebbe valere la pena espandere quel servizio. Raccogliere dati dai social media non solo fornisce feedback in tempo reale, ma è anche economico, poiché richiede meno manodopera e risorse rispetto ai sondaggi tradizionali.

I social media come fonte di dati

Le piattaforme di social media sono piene di opinioni e permettono agli utenti di esprimere liberamente i propri pensieri. I pendolari condividono frequentemente le proprie esperienze, che si tratti di elogi per un viaggio senza intoppi o di lamentele per ritardi prolungati. Questi dati possono essere una miniera d'oro per comprendere il sentiment degli utenti.

Tuttavia, ci sono sfide. I tweet possono essere informali, pieni di slang o addirittura includere più lingue in un unico post. Questo è particolarmente vero in regioni multilingue come l'Africa sub-sahariana. Per dare un senso a tutto questo, i ricercatori devono utilizzare tecniche di Elaborazione del linguaggio naturale (NLP) per setacciare il rumore.

Il potere della NLP

Quindi, cos'è questa NLP? Fondamentalmente, è un ramo dell'intelligenza artificiale che si occupa dell'interazione tra computer e lingue umane. Usando algoritmi avanzati, la NLP può aiutare ad analizzare i dati testuali per estrarre informazioni utili. Nel contesto dell'analisi del sentiment del trasporto pubblico, la NLP può identificare se un tweet esprime un'opinione positiva, negativa o neutra.

In questo studio, sono stati impiegati vari modelli linguistici pre-addestrati specificamente progettati per le lingue africane. Questo significa che le macchine sono state "addestrate" su queste lingue, permettendo loro di comprendere e analizzare meglio i tweet redatti in lingue come lo Swahili, l'isiZulu e il SeTswana.

Il layout dello studio

I ricercatori si sono concentrati su tre paesi: Kenya, Tanzania e Sudafrica. Hanno raccolto una varietà di tweet relativi al trasporto pubblico tra gennaio 2007 e marzo 2023 dalle principali città come Nairobi, Dar es Salaam e Johannesburg. Filtrando i dati irrilevanti e concentrandosi su parole chiave principali del trasporto, volevano ottenere un quadro più chiaro dei sentiment degli utenti.

Lo studio ha coinvolto diversi passaggi, inclusi la raccolta dei dati, l’elaborazione, l’analisi e infine l’applicazione di modelli di analisi del sentiment. Ogni passaggio è stato cruciale per garantire che i dati raccolti fossero pertinenti e utili.

Raccolta dei dati

La raccolta dei dati ha comportato l'uso di specifiche parole chiave relative al trasporto pubblico in ciascun paese. Questo includeva termini che le persone potrebbero usare quando twittano sulle loro esperienze di viaggio. I ricercatori si sono concentrati in particolare sulle aree metropolitane dove il trasporto pubblico è una parte chiave dei pendolari quotidiani.

Dopo aver raccolto un dataset sostanzioso, i ricercatori hanno rivolto la loro attenzione all’elaborazione di queste informazioni. Questo passaggio è fondamentale, poiché garantisce che vengano analizzati solo dati significativi, rimuovendo tutto ciò che non è pertinente allo studio in questione.

Elaborazione dei dati

Una volta raccolti, i dati dovevano essere puliti e preparati per l’analisi. Questo ha comportato diversi compiti, come rimuovere la punteggiatura, correggere le contrazioni e scartare le parole irrilevanti. L'obiettivo era concentrarsi sulle caratteristiche più critiche dei tweet che potevano rivelare il sentiment degli utenti.

Durante questa fase, i ricercatori hanno anche effettuato test di identificazione della lingua per assicurarsi di analizzare tweet nelle lingue giuste. Hanno scoperto che alcuni tweet includevano una miscela di lingue, nota come code-switching. Questo era particolarmente comune in un contesto multilingue, con parole di diverse lingue mescolate in singoli tweet.

Estrazione delle caratteristiche

Dopo aver elaborato i dati, i ricercatori hanno utilizzato una tecnica chiamata estrazione delle caratteristiche per determinare i temi sottostanti nei tweet. Questo processo prevedeva la creazione di word embeddings, un modo per convertire le parole in rappresentazioni numeriche che le macchine possono comprendere.

Grazie a metodi come Word2Vec e clustering K-Means, i ricercatori sono riusciti a raggruppare parole e termini simili. Questo li ha aiutati a identificare temi comuni nei tweet, come preoccupazioni sulla sicurezza o prezzi delle tariffe. Queste caratteristiche estratte sono state essenziali per comprendere il sentiment dei pendolari nei vari paesi.

Comprendere i sentiment dei pendolari per paese

Kenya

Nel dataset keniota, l'analisi ha rivelato sentiment per lo più negativi. I temi chiave includevano preoccupazioni per la sicurezza, in particolare riguardo al settore dei taxi-minibus (noti come Matatus). I pendolari esprimevano timori riguardo a rincari imprevedibili, potenziali episodi di crimine violento e problemi generali di sicurezza.

L'industria dei Matatu è stata sotto scrutinio per le sue misure di sicurezza, e i tweet riflettevano frustrazioni ongoing da parte dei pendolari riguardo alle loro esperienze. Nonostante i tentativi di riforma, problemi come l'eccesso di velocità e le molestie ai passeggeri sono persiste, portando a una visione negativa del trasporto pubblico in Kenya.

Tanzania

Al contrario, l'analisi del sentiment per la Tanzania ha mostrato sentiment prevalentemente positivi. Tuttavia, questa positività era accompagnata da una precisazione: gran parte dei dati era di natura promozionale o pubblicitaria. I tweet si concentravano spesso sul nuovo sistema Bus Rapid Transit (BRT) a Dar es Salaam, che riceveva elogi per la sua efficienza.

Il rovescio della medaglia era che alcuni tweet erano legati a rincari delle tariffe, il che evidenzia un aspetto importante: la relazione tra prezzi e sentiment. Se i sistemi di trasporto pubblico vogliono mantenere un sentiment positivo, dovrebbero prestare attenzione ai cambiamenti di prezzo che potrebbero sconvolgere i pendolari.

Sudafrica

Il Sudafrica ha dipinto un quadro meno roseo, con sentiment prevalentemente negativi emergenti nell’analisi. Le preoccupazioni principali riguardavano la qualità in deterioramento del sistema di trasporto pubblico, in particolare i servizi ferroviari. I pendolari esprimevano frustrazioni riguardo al vandalismo, ai fallimenti del servizio e a questioni legate alla trasparenza del governo nella gestione delle sfide del trasporto pubblico.

I sentiment negativi riflettevano problemi sistemici più ampi all'interno del settore dei trasporti. Mentre i pendolari esprimevano la loro insoddisfazione, era chiaro che la qualità delle infrastrutture e la responsabilità del governo erano preoccupazioni di primo piano.

Test e valutazione del modello

Per chiarezza, la ricerca ha previsto l'uso di GPU per i test del modello, il che significa che hanno sfruttato la potenza delle unità di elaborazione grafica avanzate per eseguire le loro analisi in modo efficace. Hanno valutato diversi modelli pre-addestrati in grado di gestire le lingue presenti nei dataset.

Attraverso test e aggiustamenti, i ricercatori hanno selezionato i modelli con le migliori prestazioni in base al loro punteggio F1, una metrica che valuta l'accuratezza di un modello. Questo ha garantito che l'analisi fosse robusta e affidabile.

Risultati chiave

I risultati di questo studio sono stati significativi. I sentiment dei pendolari nei tre paesi hanno mostrato tendenze distinte. Mentre Kenya e Sudafrica affrontavano sfide significative riguardo alla sicurezza e all'infrastruttura, i sentiment della Tanzania apparivano più favorevoli, anche se con alcune preoccupazioni riguardo ai prezzi.

Le principali preoccupazioni in generale riguardavano il costo del trasporto pubblico, le dinamiche di sicurezza e la qualità percepita dei servizi. Sottolineando queste questioni, lo studio fornisce preziose informazioni per le parti interessate nel settore del trasporto pubblico.

Conclusioni e direzioni future

La ricerca sottolinea il potenziale di impiegare tecniche NLP per analizzare il sentiment degli utenti nel trasporto pubblico. I dati dei social media possono offrire informazioni preziose sulle esperienze dei pendolari, consentendo ai fornitori di trasporto di prendere decisioni informate sui miglioramenti.

Andando avanti, c'è spazio per metodi di raccolta dei dati e processi di validazione migliorati. Incorporare più dataset che rappresentano l’esperienza più ampia dei pendolari può portare a intuizioni più informate. Inoltre, utilizzare tecniche avanzate come il mining delle opinioni basato sugli aspetti potrebbe aiutare a esplorare più a fondo aree specifiche di preoccupazione.

Considerazioni etiche

Sebbene la ricerca abbia utilizzato dati dei social media, ha dato priorità alla privacy degli utenti. Tutte le informazioni identificabili, come nomi utente e tag di posizione, sono state meticolosamente rimosse dal dataset. Proteggere la privacy e la riservatezza degli utenti dei social media è fondamentale e questo studio ha mirato a mantenere questi standard etici.

Pensieri finali

Nello schema generale delle cose, il sentiment degli utenti nel trasporto pubblico è un aspetto vitale ma spesso trascurato che può guidare un cambiamento reale. Comprendendo cosa pensano e sentono i pendolari, possiamo lavorare per servizi migliori, maggiore sicurezza e, in ultima analisi, un'esperienza di trasporto pubblico più user-friendly. Dopotutto, tutti meritano un viaggio senza intoppi!

Fonte originale

Titolo: Analysing Public Transport User Sentiment on Low Resource Multilingual Data

Estratto: Public transport systems in many Sub-Saharan countries often receive less attention compared to other sectors, underscoring the need for innovative solutions to improve the Quality of Service (QoS) and overall user experience. This study explored commuter opinion mining to understand sentiments toward existing public transport systems in Kenya, Tanzania, and South Africa. We used a qualitative research design, analysing data from X (formerly Twitter) to assess sentiments across rail, mini-bus taxis, and buses. By leveraging Multilingual Opinion Mining techniques, we addressed the linguistic diversity and code-switching present in our dataset, thus demonstrating the application of Natural Language Processing (NLP) in extracting insights from under-resourced languages. We employed PLMs such as AfriBERTa, AfroXLMR, AfroLM, and PuoBERTa to conduct the sentiment analysis. The results revealed predominantly negative sentiments in South Africa and Kenya, while the Tanzanian dataset showed mainly positive sentiments due to the advertising nature of the tweets. Furthermore, feature extraction using the Word2Vec model and K-Means clustering illuminated semantic relationships and primary themes found within the different datasets. By prioritising the analysis of user experiences and sentiments, this research paves the way for developing more responsive, user-centered public transport systems in Sub-Saharan countries, contributing to the broader goal of improving urban mobility and sustainability.

Autori: Rozina L. Myoya, Vukosi Marivate, Idris Abdulmumin

Ultimo aggiornamento: 2024-12-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2412.06951

Fonte PDF: https://arxiv.org/pdf/2412.06951

Licenza: https://creativecommons.org/publicdomain/zero/1.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili