Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la technologie de lecture labiale en persan

Un nouveau jeu de données améliore la technologie de lecture labiale pour les locuteurs persans.

― 6 min lire


Lancement du jeu deLancement du jeu dedonnées de lecturelabiale en persanlangue persane.labiale pour les utilisateurs de laNouveau dataset améliore la lecture
Table des matières

La Lecture labiale, c'est la capacité de comprendre la parole en regardant le mouvement des lèvres d'une personne. C'est super utile, surtout dans des environnements bruyants où les signaux audio peuvent être déformés ou perdus. Les récentes améliorations technologiques, notamment en apprentissage profond, ont vraiment fait avancer le domaine de la lecture labiale, rendant plus facile la reconnaissance des mots à partir des mouvements des lèvres.

L'Importance des Datasets

Pour améliorer une technologie, avoir un dataset de qualité est essentiel. Un dataset, c'est une collection d'infos utilisée pour apprendre aux machines à reconnaître des motifs. Dans le cas de la lecture labiale, ça consiste généralement en des Vidéos montrant des gens qui parlent. Plus le dataset est varié et étendu, meilleure sera la formation, permettant d'améliorer la performance dans la reconnaissance de la parole via les mouvements des lèvres.

Qu'est-ce que le Dataset de Lecture Labiale en Persan ?

Un nouveau dataset pour la lecture labiale en persan a été créé, incluant plein de vidéos de gens parlant en persan. Ce dataset contient 244 000 vidéos avec environ 1 800 intervenants de différents horizons. Le but, c'est de fournir une ressource pour les chercheurs et développeurs qui veulent améliorer la technologie de lecture labiale pour la langue persane, comme les datasets existants en anglais et en chinois.

Comment Ça Marche, la Lecture Labiale

La lecture labiale implique deux parties principales : capter l'info visuelle et traiter cette info pour faire des prédictions sur les mots qui sont prononcés. La première partie, souvent appelée le "front-end", se concentre sur l'extraction des caractéristiques de la vidéo, comme les formes et mouvements des lèvres. La seconde partie, appelée le "back-end", utilise ces données extraites pour prédire les mots ou phrases qui sont prononcés.

Actuellement, y a plein de manières de construire ces systèmes. Certains utilisent des méthodes complexes comme des réseaux de neurones convolutifs pour identifier les caractéristiques visuelles dans la vidéo, tandis que d'autres appliquent des modèles différents comme des réseaux de neurones récurrents pour comprendre la séquence des mouvements.

Datasets Traditionnels vs Modernes

Avant, les datasets utilisés pour la lecture labiale étaient souvent collectés dans des environnements contrôlés, comme des labs, et étaient relativement petits. Ces datasets se concentraient généralement sur des tâches simples comme la reconnaissance de chiffres ou de lettres. Mais avec l'évolution de la technologie, les chercheurs ont commencé à rassembler des datasets plus grands et plus complexes à partir de situations du monde réel, comme des émissions de télé et des vidéos en ligne. Ces nouvelles bases de données sont connues sous le nom de "datasets sauvages", c'est-à-dire qu'elles contiennent une grande variété de conditions de parole, ce qui les rend plus difficiles.

Par exemple, le dataset LRW-1000 contient des milliers de mots en mandarin provenant de différents intervenants et est l'un des plus grands utilisés pour la lecture labiale. De même, LRW est populaire pour la lecture labiale en anglais. Pendant ce temps, GLips est un dataset plus récent axé sur la langue allemande. Chacun de ces datasets a des caractéristiques et défis uniques.

Collecte du Dataset Persan

Le dataset de lecture labiale en persan a été construit à partir d'un site de streaming vidéo populaire où divers types de contenu comme des interviews et des films sont partagés. Avec environ 205 heures de vidéo, le dataset inclut un mélange de conditions d'éclairage et de positions des intervenants.

Les étapes clés pour collecter ce dataset incluaient :

  1. Sélection des vidéos : Les vidéos ont été choisies parmi des interviews, des films et des émissions en ligne. Chaque type a été examiné pour s'assurer qu'il avait des images claires des intervenants et que le contenu était adapté à la lecture labiale.

  2. Suivi des visages et détection des intervenants actifs : Les vidéos ont été découpées en scènes, et les visages des personnes parlant ont été suivis. Des étapes importantes ont impliqué d'identifier quel intervenant était actif pendant chaque segment pour garantir que le dataset contenait des exemples clairs de parole.

  3. Analyse audio : Pour gérer les situations où plusieurs intervenants étaient présents, des techniques d'analyse audio ont été appliquées. Cela a aidé à déterminer quel intervenant parlait à tout moment.

  4. Annotations : Beaucoup de vidéos persanes n'ont pas de sous-titres, donc des outils de reconnaissance vocale automatique ont été utilisés pour créer des Transcriptions des mots prononcés. Ces transcriptions ont ensuite été affinées pour se concentrer sur les mots pertinents pour le dataset.

  5. Sélection de mots-clés : Pour affiner encore le dataset, les mots les plus fréquemment utilisés ont été sélectionnés en fonction de leur occurrence dans les transcriptions. Cela garantit que le dataset se concentre sur des mots importants utilisés par les intervenants.

  6. Vérification des visages et partage du dataset : Enfin, des techniques ont été appliquées pour reconnaître différents intervenants et créer un dataset qui ne favorise aucun individu spécifique.

Évaluation du Dataset

Une fois le dataset créé, il a été testé en utilisant des modèles de lecture labiale bien connus pour mesurer sa performance. Les résultats ont montré que le dataset pouvait être difficile en raison de la variété des intervenants et des conditions de parole.

Deux modèles principaux ont été utilisés pour l'évaluation :

  1. Modèle MS-TCN : Ce modèle utilise une combinaison de caractéristiques visuelles et est conçu pour des tâches de lecture labiale. Lorsqu'il a été testé sur le dataset persan, il a atteint certains pourcentages de précision, indiquant à quel point il reconnaissait bien les mots prononcés.

  2. Modèle AV-HuBERT : Initialement conçu pour la lecture labiale au niveau des phrases, ce modèle a été adapté pour travailler avec le dataset persan en tant qu'extracteur de caractéristiques. Même s'il a été entraîné sur des données anglaises, il a bien performé sur le dataset persan.

La précision de ces modèles fournit une référence pour les développements futurs, aidant les chercheurs à comprendre à quel point leurs méthodes peuvent être efficaces.

Conclusion

Le développement d'un dataset de lecture labiale au niveau des mots en persan marque une étape importante dans le domaine de la reconnaissance visuelle de la parole. Il fournit aux chercheurs les ressources nécessaires pour faire avancer une technologie qui peut aider à reconnaître la parole à travers les mouvements des lèvres. Ce travail contribue non seulement à l'accumulation des connaissances en lecture labiale, mais ouvre aussi de nouvelles opportunités pour des applications dans divers domaines, y compris les aides à la communication pour les personnes malentendantes. Les avancées continues en apprentissage profond et en collecte de datasets vont continuer à améliorer notre capacité à comprendre et innover dans ce domaine.

Plus d'auteurs

Articles similaires