Une nouvelle méthode améliore la compréhension des ordres parlés par les ordinateurs avec moins d'exemples.
― 6 min lire
La science de pointe expliquée simplement
Une nouvelle méthode améliore la compréhension des ordres parlés par les ordinateurs avec moins d'exemples.
― 6 min lire
Améliorer l'identification des locuteurs en combinant le son et les mots prononcés dans l'audio.
― 7 min lire
Un nouveau cadre améliore la détection du locuteur actif en utilisant des indices audio et visuels.
― 7 min lire
Une nouvelle méthode améliore les modèles audio généraux pour une reconnaissance vocale efficace.
― 9 min lire
Cette recherche traite de l'oubli en IA à travers l'apprentissage continu dans la compréhension du langage parlé.
― 10 min lire
CALLS a pour but d'améliorer la capacité des assistants vocaux à gérer les interactions avec les clients.
― 6 min lire
De nouvelles méthodes exploitent l'identité du locuteur pour améliorer la performance de la reconnaissance vocale.
― 6 min lire
Utiliser le transfert de connaissances des modèles tchèques améliore la précision de la reconnaissance vocale slovaque.
― 5 min lire
Créer des systèmes TTS pour des langues turciques moins connues en utilisant des données kazakhes.
― 6 min lire
Un nouveau modèle améliore l'isolation vocale dans les environnements bruyants.
― 6 min lire
OpenSR améliore les modèles de lecture labiale en utilisant des données audio pour plus de précision et d'accessibilité.
― 8 min lire
Des recherches montrent un modèle pour améliorer la correction des disfluences dans les systèmes de reconnaissance vocale.
― 7 min lire
Une étude sur comment les erreurs de langage affectent l'apprentissage avec des agents pédagogiques.
― 6 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour les noms qui se ressemblent.
― 7 min lire
De nouvelles méthodes améliorent la flexibilité et les performances des modèles dans les tâches audio.
― 6 min lire
Une nouvelle méthode améliore la compréhension du langage parlé sans avoir besoin de transcriptions écrites.
― 7 min lire
Améliorer la technologie de traduction pour des langues à faibles ressources comme le Tamasheq et le Quechua.
― 7 min lire
BabySLM évalue comment les machines apprennent à comprendre la parole en se basant sur le langage des enfants.
― 9 min lire
Améliorer les systèmes de reconnaissance de la parole silencieuse avec de nouvelles techniques.
― 6 min lire
Une nouvelle méthode pour entraîner des modèles de détection de mots-clés en utilisant une supervision faible dans des environnements bruyants.
― 8 min lire
Une nouvelle approche améliore les performances des RNN-T dans la reconnaissance vocale automatique.
― 8 min lire
Explorer des méthodes pour améliorer la reconnaissance vocale multilingue dans les langues indiennes.
― 7 min lire
Découvrez comment SVVAD améliore la détection de l'activité vocale pour une meilleure vérification des locuteurs.
― 6 min lire
Une nouvelle méthode améliore les retours sur la prononciation pour les apprenants de langues.
― 7 min lire
Un nouveau cadre évalue comment les modèles de parole s'adaptent à des tâches spécifiques.
― 8 min lire
La recherche améliore la traduction vocale multilingue en utilisant des connaissances sémantiques.
― 5 min lire
Sparq vise à améliorer la performance des réseaux de neurones quantifiés avec moins de ressources.
― 5 min lire
SlothSpeech dévoile des failles dans les systèmes de reconnaissance vocale, les ralentissant considérablement.
― 6 min lire
EmoMix permet de créer des discours exprimant des émotions mélangées avec une intensité précise.
― 6 min lire
Un nouveau corpus pour traduire l'audio cantonais en texte anglais.
― 6 min lire
Découvrez la méthode innovante du Multi-Window Masked Autoencoder pour améliorer le traitement audio.
― 6 min lire
Une nouvelle méthode améliore les systèmes de reconnaissance automatique de la parole pour plus de précision et d'adaptabilité.
― 7 min lire
Le biais contextuel améliore les systèmes de reconnaissance vocale, augmentant la précision dans les tâches spécialisées.
― 7 min lire
Cette étude présente un nouveau système pour détecter les erreurs de prononciation chez les apprenants de langues.
― 7 min lire
Un nouveau modèle réduit la taille tout en améliorant la reconnaissance vocale multilingue.
― 7 min lire
Un nouveau système améliore la reconnaissance vocale dans des situations avec plusieurs intervenants.
― 7 min lire
Cette étude examine les avantages de fusionner le traitement de la parole avec des données visuelles.
― 8 min lire
Un aperçu de comment Whisper gère les différents dialectes et accents arabes.
― 6 min lire
Une nouvelle méthode améliore la reconnaissance des actes de parole en bengali grâce à l'analyse audio et textuelle.
― 6 min lire
Une nouvelle approche améliore l'identification de la langue parlée en utilisant l'apprentissage auto-supervisé et des étiquettes.
― 8 min lire