Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Son# Traitement de l'audio et de la parole

Lutter contre les discours de haine dans les langues à faibles ressources

Explorer des méthodes pour détecter les discours de haine dans les diffusions audio de langues sous-représentées.

― 6 min lire


Détection de discoursDétection de discourshaineux dans l'audiohaine dans les audio de radio.Méthodes pour repérer les discours de
Table des matières

Les Discours de haine sont un problème qui grandit dans plein d'endroits dans le monde. Dans certains pays en développement, les émissions de radio sont le principal moyen de partager des infos avec le public. Mais surveiller les discours de haine dans ces émissions, c'est pas simple, surtout quand les langues utilisées sont moins courantes et peu étudiées. Des trucs comme le bruit de fond, les différents accents et la variation entre les orateurs rendent la détection des discours de haine vraiment difficile.

Une solution pratique à ce problème, c'est d'utiliser le Repérage de mots-clés (KWS). Cette méthode cherche dans les enregistrements audio des mots ou phrases spécifiques qui indiquent des discours de haine. Traditionnellement, ça implique d'utiliser un système de reconnaissance automatique de la parole (ASR) qui transforme d'abord la langue parlée en texte. Ensuite, le système cherche les mots-clés dans ce texte. Mais pour les langues qui manquent de données écrites ou transcrites, construire un modèle ASR de qualité, c'est compliqué.

Le défi des langues à faibles ressources

Pour les langues à faibles ressources, il n'y a souvent pas assez de matériel parlé et écrit pour entraîner un système ASR fiable. Du coup, les chercheurs cherchent des méthodes alternatives. Certaines techniques récentes utilisent moins de ressources. Par exemple, une méthode utilise moins d'exemples parlés de mots-clés pour trouver des correspondances dans des enregistrements audio sans avoir besoin d'une transcription complète.

La technique de requête par exemple (QbE) permet ça en utilisant un exemple parlé d'un mot-clé pour fouiller dans des enregistrements audio. Ça veut dire que si t'as un court clip audio de quelqu'un disant le mot-clé, tu peux l'utiliser pour trouver des occurrences de ce mot ailleurs.

Approches de repérage de mots-clés

Il y a deux approches principales pour détecter les discours de haine dans les langues à faibles ressources : les systèmes basés sur ASR et ceux basés sur AWE. La méthode ASR est directe ; elle transcrit d'abord l'audio puis cherche les mots-clés dans le texte. Mais le succès de cette approche dépend de la qualité du modèle ASR.

D'un autre côté, la méthode AWE (embeddings acoustiques de mots) crée une représentation vectorielle des mots parlés, ce qui facilite la détermination de leur similarité. Ça permet aux chercheurs de trouver des mots-clés en fonction de leur son plutôt que de se fier uniquement au texte. La méthode AWE peut fonctionner même quand il y a très peu d'exemples disponibles.

Comparaison entre ASR et AWE

Dans des études sur le swahili et le wolof, les modèles ASR ont montré du potentiel même avec des données d'entraînement limitées. Par exemple, un modèle entraîné sur seulement cinq minutes de données peut repérer des mots-clés efficacement. Cependant, lors de tests dans le monde réel, les méthodes AWE se sont révélées assez robustes. Par exemple, un modèle AWE utilisant une minute d'exemples parlés a réussi à performer aussi bien qu'un modèle ASR entraîné sur 30 heures de données lors de tests sur de vraies émissions de radio.

Expérimentation contrôlée

Dans des environnements contrôlés, les chercheurs ont testé les deux méthodes avec des enregistrements audio de haute qualité, sans bruit. L'objectif était de voir à quel point le repérage de mots-clés fonctionnait quand l'audio d'entraînement et de test venait de la même source. Dans ces scénarios, le modèle ASR surpassait souvent la méthode AWE, surtout quand il y avait plus de données disponibles. Mais le système AWE a montré des avantages en termes de rappel, ce qui signifie qu'il pouvait trouver plus de vraies instances de mots-clés même s'il avait une précision globale plus basse.

Pour une application réelle, la capacité à trouver efficacement des discours de haine est moins une question de performances brutes et plus une question de contexte. Différents environnements et exigences favoriseront une méthode plutôt qu'une autre. Par exemple, s'il y a peu de données audio disponibles et qu'une mise en œuvre rapide est nécessaire, la méthode AWE pourrait être le meilleur choix.

Tests réels

Le vrai défi, c'est d'appliquer ces méthodes à de l'audio réel, comme les enregistrements d'émissions de radio. Dans des conditions non contrôlées, où l'audio est plus varié et comprend du bruit de fond et des accents différents, la méthode AWE a prouvé qu'elle pouvait tenir le coup. La comparaison des deux méthodes dans des scénarios réels a montré que le système AWE performait souvent mieux que le système ASR entraîné sur moins de données.

Ça suggère que même si les méthodes ASR peuvent être plus précises dans des environnements contrôlés, les méthodes AWE pourraient présenter une solution plus pratique quand il s'agit de gérer les complexités de l'audio du monde réel.

Conclusion

En résumé, détecter les discours de haine dans les langues à faibles ressources présente des défis uniques. L'analyse des méthodes ASR par rapport aux méthodes AWE montre que les deux ont leurs forces et leurs faiblesses. Les modèles ASR peuvent exceller avec des données d'entraînement suffisantes, tandis que les modèles AWE peuvent offrir une solution plus flexible quand les ressources sont limitées.

Au final, le choix entre ces méthodes dépendra des besoins spécifiques d'un projet, y compris la disponibilité des données d'entraînement et l'importance de la précision par rapport au rappel dans la détection des discours de haine. Au fur et à mesure que la recherche continue dans ce domaine, on pourrait découvrir de meilleures méthodes et outils pour s'attaquer au problème persistant des discours de haine dans des langues diverses.

Source originale

Titre: Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili

Résumé: We consider hate speech detection through keyword spotting on radio broadcasts. One approach is to build an automatic speech recognition (ASR) system for the target low-resource language. We compare this to using acoustic word embedding (AWE) models that map speech segments to a space where matching words have similar vectors. We specifically use a multilingual AWE model trained on labelled data from well-resourced languages to spot keywords in data in the unseen target language. In contrast to ASR, the AWE approach only requires a few keyword exemplars. In controlled experiments on Wolof and Swahili where training and test data are from the same domain, an ASR model trained on just five minutes of data outperforms the AWE approach. But in an in-the-wild test on Swahili radio broadcasts with actual hate speech keywords, the AWE model (using one minute of template data) is more robust, giving similar performance to an ASR system trained on 30 hours of labelled data.

Auteurs: Christiaan Jacobs, Nathanaël Carraz Rakotonirina, Everlyn Asiko Chimoto, Bruce A. Bassett, Herman Kamper

Dernière mise à jour: 2023-06-01 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.00410

Source PDF: https://arxiv.org/pdf/2306.00410

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires