Projet Kallaama : Lier la langue et la technologie dans l'agriculture
Kallaama crée un jeu de données de discours dans les langues locales pour aider les agriculteurs sénégalais.
― 6 min lire
Table des matières
- Importance de la langue dans la technologie
- Le besoin de contenu localisé
- Détails du jeu de données
- Représentation linguistique
- Accès à la technologie
- Défis dans la création du jeu de données
- Méthode de collecte
- Cas d'utilisation du jeu de données
- Ressources existantes
- Élargissement des opportunités
- Conclusion
- Source originale
- Liens de référence
Le projet Kallaama vise à créer et partager un jeu de données de langage parlé axé sur l'Agriculture. Il inclut trois langues principales du Sénégal : le Wolof, le Pulaar et le Sereer. L'objectif est d'aider à développer des technologies qui utilisent ces langues, qui sont essentielles pour les agriculteurs et la communauté agricole.
Importance de la langue dans la technologie
Au Sénégal, beaucoup de gens n'ont pas accès aux outils et services numériques, ce qui rend la communication et l'accès à l'information difficiles. La plupart des technologies disponibles sont en français, la langue officielle, mais beaucoup de Sénégalais préfèrent utiliser leur langue maternelle. Ça crée un fossé, car beaucoup de gens galèrent à utiliser des technologies qui ne sont pas disponibles dans leur langue.
Le besoin de contenu localisé
Actuellement, il n'y a pas assez de contenu en Wolof, Pulaar et Sereer pour les développeurs de technologies. Ce manque de matériel complique la création de systèmes de Reconnaissance vocale, surtout pour l'agriculture. Le projet Kallaama aborde ce problème en produisant un jeu de données de 125 heures d'enregistrements audio sur l'agriculture dans ces trois langues.
Détails du jeu de données
Le jeu de données est spécifiquement conçu pour la reconnaissance automatique de la parole, ce qui aide les ordinateurs à comprendre les mots prononcés. Il inclut des enregistrements de fermiers, de conseillers agricoles et de responsables d'entreprises agroalimentaires. Les types d'enregistrements varient et incluent des groupes de discussion, des interviews et des programmes radio.
Les données collectées sont des discours naturels et spontanés, ce qui est essentiel pour former des systèmes de reconnaissance vocale. Les enregistrements varient aussi en qualité à cause des différents environnements d'enregistrement, mais ils fournissent un vocabulaire agricole pertinent dans le contexte.
Représentation linguistique
Le Wolof est la langue la plus parlée au Sénégal, avec environ 5 millions de locuteurs. Le Pulaar suit avec 3,5 millions de locuteurs, tandis que le Sereer a environ 1 million de locuteurs. Ensemble, ces langues couvrent une partie significative de la population. Le projet reconnaît que l'agriculture est un aspect majeur de la vie pour beaucoup de Sénégalais, et avoir des ressources dans les langues maternelles est crucial pour améliorer l'accès à l'information.
Accès à la technologie
Le projet Kallaama reconnaît les difficultés rencontrées par les agriculteurs pour accéder aux avantages de la technologie. Beaucoup d'agriculteurs n'utilisent pas Internet ou les smartphones à cause d'un manque de littératie et de contenu disponible dans leurs langues. En développant un jeu de données vocales, le projet espère créer des technologies qui permettent aux agriculteurs d'interagir avec des outils numériques en utilisant leur langue maternelle.
Défis dans la création du jeu de données
Créer ce jeu de données n’a pas été sans défis. Les transcriptions des enregistrements nécessitaient des linguistes formés qui comprenaient bien les langues. La plupart des transcriptions devaient suivre une forme écrite standard, ce qui peut être compliqué car beaucoup de gens ne sont pas habitués à écrire dans leur langue maternelle. Les différents dialectes au sein des langues posaient aussi un problème, car des locuteurs de différentes régions peuvent ne pas se comprendre facilement.
Méthode de collecte
Le projet a collecté des enregistrements audio par divers moyens, y compris des émissions de radio et des interviews. Des transcripteurs ont travaillé pour convertir l'audio en texte écrit en utilisant des directives fournies par des organisations linguistiques locales. Malgré l'effort, les transcriptions reflètent quelques problèmes d'écriture courants à cause du manque de normes claires pour l'écriture des langues.
Cas d'utilisation du jeu de données
Le jeu de données Kallaama peut être utilisé pour diverses applications, comme la conception de systèmes activés par la voix pour les agriculteurs. Cela permettrait aux agriculteurs d'obtenir des informations sur les cultures, la météo et les prix du marché dans leur langue maternelle sans avoir besoin de lire ou d'écrire. Il peut aussi soutenir le développement d'applications qui fournissent des conseils personnalisés sur les pratiques agricoles, améliorant ainsi la productivité agricole.
Ressources existantes
Avant le projet Kallaama, il y avait très peu de ressources disponibles pour le Wolof, le Pulaar et le Sereer. Le Wolof avait quelques Jeux de données existants, mais pour le Pulaar et le Sereer, les ressources étaient presque absentes. Kallaama vise à combler ce fossé en fournissant des jeux de données vocales robustes et des technologies de soutien qui peuvent améliorer les pratiques agricoles.
Élargissement des opportunités
Avec les infos du Kallaama, les développeurs peuvent créer des applications qui non seulement améliorent la communication mais aussi autonomisent les agriculteurs. Ça inclut des chatbots qui peuvent répondre à des questions courantes ou des assistants vocaux qui peuvent guider les agriculteurs à travers des processus compliqués, tout en utilisant les langues dans lesquelles ils sont le plus à l'aise. De tels outils peuvent vraiment aider à combler le fossé de communication dans le secteur agricole.
Conclusion
Le projet Kallaama fournit une ressource essentielle pour le Sénégal en créant un jeu de données vocales qui soutient l'utilisation des langues locales dans la technologie. Cet effort aide non seulement à faire avancer les systèmes de reconnaissance vocale mais aussi à promouvoir la préservation de ces langues à l'ère numérique. En permettant aux agriculteurs d'accéder à l'information dans leur propre langue, le projet peut faire une différence significative dans les pratiques agricoles, améliorant finalement la qualité de vie de beaucoup de Sénégalais.
Dans l'ensemble, le projet Kallaama se positionne comme une étape vitale pour s'assurer que la technologie serve tous les gens, peu importe la langue qu'ils parlent. Il souligne l'importance des langues locales pour atteindre un meilleur accès à l'information et à la technologie dans le secteur agricole du Sénégal.
Titre: Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal
Résumé: This work is part of the Kallaama project, whose objective is to produce and disseminate national languages corpora for speech technologies developments, in the field of agriculture. Except for Wolof, which benefits from some language data for natural language processing, national languages of Senegal are largely ignored by language technology providers. However, such technologies are keys to the protection, promotion and teaching of these languages. Kallaama focuses on the 3 main spoken languages by Senegalese people: Wolof, Pulaar and Sereer. These languages are widely spoken by the population, with around 10 million of native Senegalese speakers, not to mention those outside the country. However, they remain under-resourced in terms of machine-readable data that can be used for automatic processing and language technologies, all the more so in the agricultural sector. We release a transcribed speech dataset containing 125 hours of recordings, about agriculture, in each of the above-mentioned languages. These resources are specifically designed for Automatic Speech Recognition purpose, including traditional approaches. To build such technologies, we provide textual corpora in Wolof and Pulaar, and a pronunciation lexicon containing 49,132 entries from the Wolof dataset.
Auteurs: Elodie Gauthier, Aminata Ndiaye, Abdoulaye Guissé
Dernière mise à jour: 2024-04-02 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.01991
Source PDF: https://arxiv.org/pdf/2404.01991
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.jeuneafrique.com/138138/societe/plan-te-peule-rencontre-avec-un-peuple-sans-fronti-res/
- https://lgidf.cnrs.fr/sites/lgidf.cnrs.fr/files/images/PEUL_24_06_19_A4.pdf
- https://www.k4all.org/project/keyword-spotting-with-african-languages/
- https://k4all.org/
- https://journals.openedition.org/esp/1126
- https://www.cambridge.org/core/elements/abs/spontaneous-speech/403C69D68C0BC2C702067F971E7DB47A
- https://clad.ucad.sn/
- https://trans.sourceforge.net/
- https://www.ias.sn/pas
- https://github.com/getalp/ALFFA_PUBLIC
- https://github.com/masakhane-io/masakhane-ner/
- https://github.com/masakhane-io/masakhane-ner/tree/main/text_by_language/wolof
- https://defuwaxu.com/
- https://saabal.com/
- https://github.com/AdolfVonKleist/Phonetisaurus
- https://github.com/gauthelo/kallaama-speech-dataset
- https://esp.sn/senlangedit-un-clavier-virtuel-pour-la-promotion-des-langues-nationales/
- https://lacunafund.org/