Sentiments sur les transports publics en Afrique subsaharienne
Analyser les expériences des navetteurs au Kenya, en Tanzanie et en Afrique du Sud.
Rozina L. Myoya, Vukosi Marivate, Idris Abdulmumin
― 10 min lire
Table des matières
- Le besoin d'Analyse des sentiments des utilisateurs
- Les réseaux sociaux comme source de données
- La puissance du NLP
- Le plan de l'étude
- Collecte de données
- Traitement des données
- Extraction des caractéristiques
- Comprendre les sentiments des navetteurs par pays
- Kenya
- Tanzanie
- Afrique du Sud
- Test et évaluation des modèles
- Résultats clés
- Conclusions et orientations futures
- Considérations éthiques
- Dernières pensées
- Source originale
- Liens de référence
Les transports en commun jouent un rôle crucial dans la vie quotidienne de millions de personnes à travers le monde. En Afrique subsaharienne, les systèmes de bus, les chemins de fer et les taxis mini-bus sont vitaux pour les navetteurs. Cependant, ces systèmes reçoivent souvent moins d'attention par rapport à d'autres secteurs comme la santé ou l'éducation, ce qui entraîne des défis en matière de qualité de service et d'expérience utilisateur. Comprendre ce que pensent les usagers des transports en commun peut aider à améliorer ces systèmes, mais comment recueillir et analyser ces informations efficacement ?
Avec l'essor des Réseaux sociaux, les gens expriment davantage leurs expériences. Des plateformes comme Twitter (maintenant X) sont devenues d'excellents moyens pour les usagers de partager leurs pensées et leurs opinions. Cela fournit une riche source de données qui peut être utilisée pour évaluer le sentiment public. Alors, embarquons dans le monde du ressenti des utilisateurs de transports en commun, en particulier au Kenya, en Tanzanie et en Afrique du Sud !
Analyse des sentiments des utilisateurs
Le besoin d'Pourquoi devrions-nous nous soucier de ce que pensent les utilisateurs des transports en commun ? Eh bien, comprendre le ressenti des navetteurs peut conduire à de meilleurs services et à une expérience utilisateur améliorée. Avec tant de gens qui dépendent du transport public, il est essentiel que les autorités de transport sachent où elles réussissent et où elles échouent.
Par exemple, si de nombreux usagers expriment des préoccupations concernant la sécurité, c'est un signe clair qu'il faut agir. En revanche, s'il y a des éloges pour un nouveau service de bus, cela pourrait valoir le coup d'élargir ce service. Collecter des données sur les réseaux sociaux fournit non seulement des retours en temps réel, mais est également rentable, car cela nécessite moins de main-d'œuvre et de ressources par rapport aux enquêtes traditionnelles.
Les réseaux sociaux comme source de données
Les plateformes de médias sociaux regorgent d'opinions et permettent aux utilisateurs d'exprimer librement leurs pensées. Les navetteurs partagent souvent leurs expériences, qu'ils louent un trajet fluide ou se plaignent de longs retards. Ces données peuvent être une mine d'or pour comprendre le ressenti des utilisateurs.
Cependant, il y a des défis. Les tweets peuvent être informels, remplis d'argot, ou même inclure plusieurs langues dans un seul post. C'est particulièrement le cas dans des régions multilingues comme l'Afrique subsaharienne. Pour faire sens de tout ça, les chercheurs doivent utiliser des techniques de Traitement du langage naturel (NLP) pour trier le bruit.
La puissance du NLP
Alors, c'est quoi ce truc de NLP ? En gros, c'est une branche de l'intelligence artificielle qui s'occupe de l'interaction entre les ordinateurs et les langues humaines. En utilisant des algorithmes avancés, le NLP peut aider à analyser les données textuelles pour extraire des informations utiles. Dans le contexte de l'analyse des sentiments liés aux transports en commun, le NLP peut identifier si un tweet exprime une opinion positive, négative ou neutre.
Dans cette étude, divers modèles de langage pré-entraînés spécifiquement conçus pour les langues africaines ont été utilisés. Cela signifie que les machines ont été "entrainées" sur ces langues, leur permettant de mieux comprendre et d'analyser les tweets rédigés dans des langues comme le swahili, isiZulu et SeTswana.
Le plan de l'étude
Les chercheurs se sont concentrés sur trois pays : le Kenya, la Tanzanie et l'Afrique du Sud. Ils ont collecté une variété de tweets liés aux transports en commun entre janvier 2007 et mars 2023 dans des grandes villes comme Nairobi, Dar es Salaam et Johannesburg. En filtrant les données non pertinentes et en se concentrant sur des mots-clés majeurs, ils visaient à obtenir une image plus claire des sentiments des navetteurs.
L'étude a impliqué plusieurs étapes, y compris la Collecte de données, le traitement, l'analyse et enfin, l'application de modèles d'analyse des sentiments. Chaque étape était cruciale pour s'assurer que les données collectées étaient pertinentes et informatives.
Collecte de données
La collecte de données a impliqué l'utilisation de mots-clés spécifiques en lien avec les transports en commun dans chaque pays. Cela incluait des termes que les gens pourraient utiliser lorsqu'ils tweetent sur leurs expériences de voyage. Les chercheurs se sont concentrés sur des zones métropolitaines où les transports en commun sont une partie clé du quotidien.
Après avoir rassemblé un ensemble de données substantiel, les chercheurs ont ensuite traité ces informations. Cette étape est clé, car elle garantit que seules les données significatives sont analysées, supprimant tout ce qui ne concerne pas l'étude en question.
Traitement des données
Une fois les données collectées, elles devaient être nettoyées et préparées pour l'analyse. Cela impliquait plusieurs tâches, comme supprimer la ponctuation, corriger les contractions et éliminer les mots non pertinents. Le but était de se concentrer sur les caractéristiques les plus critiques des tweets qui pourraient révéler le ressenti des utilisateurs.
Au cours de cette étape, les chercheurs ont également effectué des tests d'identification des langues pour s'assurer qu'ils analysaient des tweets dans les bonnes langues. Ils ont constaté que certains tweets contenaient un mélange de langues, ce qu'on appelle le code-switching. C'était particulièrement courant dans un contexte multilingue, avec des mots de différentes langues mélangés dans des tweets uniques.
Extraction des caractéristiques
Après le traitement des données, les chercheurs ont utilisé une technique appelée extraction des caractéristiques pour déterminer les thèmes sous-jacents dans les tweets. Ce processus impliquait la création de représentations numériques des mots, une manière de convertir les mots en représentations numériques que les machines peuvent comprendre.
En employant des méthodes comme Word2Vec et le clustering K-Means, les chercheurs ont pu regrouper des mots et des termes similaires. Cela les a aidés à identifier des thèmes communs dans les tweets, comme les préoccupations liées à la sécurité ou les prix des tarifs. Ces caractéristiques extraites étaient essentielles pour comprendre le ressenti des navetteurs à travers différents pays.
Comprendre les sentiments des navetteurs par pays
Kenya
Dans le jeu de données kenyan, l'analyse a révélé des sentiments majoritairement négatifs. Les thèmes principaux incluaient des préoccupations concernant la sécurité, en particulier par rapport au secteur des taxis mini-bus (appelés Matatus). Les navetteurs exprimaient des craintes face à des hausses de prix imprévisibles, des incidents criminels potentiels et des problèmes de sécurité généraux.
L'industrie des Matatus a été sous le feu des critiques concernant ses mesures de sécurité, et les tweets reflétaient des frustrations continues des usagers concernant leurs expériences. Malgré les efforts de réforme, des problèmes comme la vitesse excessive et le harcèlement des passagers ont persisté, menant à une vision négative des transports en commun au Kenya.
Tanzanie
En revanche, l'analyse des sentiments pour la Tanzanie montrait des sentiments principalement positifs. Cependant, cette positivité était à nuancer – une grande partie des données était de nature promotionnelle ou publicitaire. Les tweets mettaient souvent en avant le nouveau système de Bus Rapid Transit (BRT) à Dar es Salaam, qui a été salué pour son efficacité.
Le revers de la médaille était que certains tweets étaient liés à des augmentations de tarifs, ce qui met en lumière un aspect important : la relation entre les prix et le sentiment. Si les systèmes de transport public veulent maintenir un sentiment positif, ils devraient être prudents quant aux changements de prix qui pourraient déranger les navetteurs.
Afrique du Sud
L'Afrique du Sud peignait un tableau moins rose, avec des sentiments majoritairement négatifs émergeant dans l'analyse. Les principales préoccupations tournaient autour de la dégradation de la qualité du système de transports en commun, notamment des services ferroviaires. Les navetteurs exprimaient leur frustration face au vandalisme, aux pannes de services et aux questions liées à la transparence du gouvernement dans la gestion des défis des transports publics.
Les sentiments négatifs reflétaient des problèmes systémiques plus larges dans le secteur des transports. Alors que les usagers exprimaient leur mécontentement, il était clair que la qualité des infrastructures et la responsabilité du gouvernement étaient des préoccupations majeures.
Test et évaluation des modèles
Pour plus de clarté, la recherche a impliqué l'utilisation de GPU pour les tests de modèles, ce qui signifie qu'ils ont exploité la puissance d'unités de traitement graphique avancées pour mener à bien leurs analyses. Ils ont évalué plusieurs modèles pré-entraînés capables de gérer les langues présentes dans les ensembles de données.
Grâce aux tests et aux ajustements, les chercheurs ont sélectionné les modèles les plus performants en fonction de leur score F1, une métrique qui évalue la précision d'un modèle. Cela a assuré que l'analyse était robuste et fiable.
Résultats clés
Les résultats de cette étude étaient révélateurs. Les sentiments des navetteurs à travers les trois pays présentent des tendances distinctes. Alors que le Kenya et l'Afrique du Sud font face à des défis significatifs en matière de sécurité et d'infrastructure, les sentiments de la Tanzanie semblaient plus favorables, bien que certaines inquiétudes concernant les prix subsistent.
Les principales préoccupations dans l'ensemble étaient liées au coût des transports en commun, à la sécurité et à la qualité perçue des services. En mettant en avant ces questions, l'étude fournit des informations précieuses aux acteurs du secteur des transports en commun.
Conclusions et orientations futures
La recherche souligne le potentiel d'utiliser des techniques de NLP pour analyser les sentiments des utilisateurs dans les transports en commun. Les données des réseaux sociaux peuvent offrir des informations précieuses sur les expériences des navetteurs, permettant aux fournisseurs de transport de prendre des décisions éclairées sur les améliorations à apporter.
À l'avenir, il y a place pour des méthodes de collecte de données et des processus de validation améliorés. L'incorporation de plus de jeux de données représentant l'expérience des navetteurs peut mener à des aperçus plus éclairés. De plus, l'utilisation de techniques avancées comme l'extraction d'opinions basée sur des aspects pourrait aider à explorer plus en profondeur des domaines spécifiques de préoccupation.
Considérations éthiques
Bien que la recherche ait utilisé des données des réseaux sociaux, elle a donné la priorité à la vie privée des utilisateurs. Toutes les informations identifiables, comme les noms d'utilisateur et les balises de localisation, ont été soigneusement supprimées de l'ensemble de données. Protéger la vie privée et la confidentialité des utilisateurs des réseaux sociaux est crucial, et cette étude visait à respecter ces normes éthiques.
Dernières pensées
Dans le grand schéma des choses, le ressenti des utilisateurs concernant les transports en commun est un aspect vital mais souvent négligé qui peut entraîner de réels changements. En comprenant ce que pensent et ressentent les navetteurs, nous pouvons œuvrer pour de meilleurs services, une sécurité accrue et, finalement, une expérience de transport public plus conviviale. Après tout, tout le monde mérite un trajet agréable !
Source originale
Titre: Analysing Public Transport User Sentiment on Low Resource Multilingual Data
Résumé: Public transport systems in many Sub-Saharan countries often receive less attention compared to other sectors, underscoring the need for innovative solutions to improve the Quality of Service (QoS) and overall user experience. This study explored commuter opinion mining to understand sentiments toward existing public transport systems in Kenya, Tanzania, and South Africa. We used a qualitative research design, analysing data from X (formerly Twitter) to assess sentiments across rail, mini-bus taxis, and buses. By leveraging Multilingual Opinion Mining techniques, we addressed the linguistic diversity and code-switching present in our dataset, thus demonstrating the application of Natural Language Processing (NLP) in extracting insights from under-resourced languages. We employed PLMs such as AfriBERTa, AfroXLMR, AfroLM, and PuoBERTa to conduct the sentiment analysis. The results revealed predominantly negative sentiments in South Africa and Kenya, while the Tanzanian dataset showed mainly positive sentiments due to the advertising nature of the tweets. Furthermore, feature extraction using the Word2Vec model and K-Means clustering illuminated semantic relationships and primary themes found within the different datasets. By prioritising the analysis of user experiences and sentiments, this research paves the way for developing more responsive, user-centered public transport systems in Sub-Saharan countries, contributing to the broader goal of improving urban mobility and sustainability.
Auteurs: Rozina L. Myoya, Vukosi Marivate, Idris Abdulmumin
Dernière mise à jour: Dec 9, 2024
Langue: English
Source URL: https://arxiv.org/abs/2412.06951
Source PDF: https://arxiv.org/pdf/2412.06951
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.