Une nouvelle méthode améliore la façon dont les systèmes gèrent les erreurs dans la compréhension du langage parlé.
― 8 min lire
La science de pointe expliquée simplement
Une nouvelle méthode améliore la façon dont les systèmes gèrent les erreurs dans la compréhension du langage parlé.
― 8 min lire
Une nouvelle méthode améliore la précision de la reconnaissance de texte dans plusieurs applications.
― 8 min lire
Un clip audio universel peut couper des modèles ASR avancés comme Whisper.
― 8 min lire
Exploiter des modèles à sortie anticipée pour un apprentissage fédéré efficace dans les systèmes ASR.
― 12 min lire
SpeechVerse fait le lien entre la compréhension audio et le traitement du langage pour améliorer l'interaction humain-ordinateur.
― 8 min lire
Une reconnaissance vocale améliorée pour les salles de classe grâce à des techniques de formation avancées améliore l'apprentissage.
― 9 min lire
Les modèles de langage de débruitage améliorent la correction des erreurs dans les systèmes de reconnaissance vocale en utilisant des données synthétiques.
― 10 min lire
Découvrez comment le speech inpainting restaure la qualité audio dans différents domaines.
― 8 min lire
Un nouveau modèle améliore la reconnaissance vocale en utilisant plusieurs méthodes de décodage.
― 9 min lire
Une étude sur l'amélioration de la reconnaissance vocale automatique pour les dialectes arabes en utilisant des techniques de modèle efficaces.
― 6 min lire
Explorer le rôle de l'apprentissage auto-supervisé dans le traitement de la parole et ses défis.
― 11 min lire
Un coup d'œil sur les nouvelles méthodes pour comprendre les discours qui se chevauchent pendant les conversations.
― 9 min lire
Une nouvelle méthode cible les changements de rythme pour des attaques de discours discrètes.
― 7 min lire
Un nouveau système aide à séparer la parole du bruit pour une communication plus claire.
― 8 min lire
Découvre la diarisation de locuteur en ligne et son importance dans diverses applications.
― 8 min lire
Un nouvel outil de référence évalue les tokens audio discrets pour diverses tâches de traitement de la parole.
― 11 min lire
Une nouvelle méthode combine des caractéristiques acoustiques et des scores de confiance pour une meilleure correction des erreurs.
― 6 min lire
Une étude sur comment les machines s'adaptent aux changements phonologiques dans la parole.
― 8 min lire
Un système combine audio et vidéo pour améliorer la précision de la détection des intervenants.
― 6 min lire
Une nouvelle méthode améliore le dialogue machine grâce à des données pseudo-stéréo.
― 8 min lire
Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.
― 9 min lire
Cette étude se concentre sur l'amélioration de la détection des faux audios en utilisant des méthodes avancées.
― 6 min lire
Comprendre l'incertitude améliore la précision de la reconnaissance des émotions dans des situations réelles.
― 8 min lire
Un système de reconnaissance de locuteurs dans des audio multilingues sans avoir besoin de beaucoup de données.
― 7 min lire
Améliorer la technologie d'anonymisation des locuteurs pour neuf langues afin de garantir la vie privée.
― 7 min lire
Les recherches montrent que la vidéo aide à améliorer la reconnaissance vocale dans des environnements bruyants.
― 6 min lire
Une nouvelle méthode améliore la précision dans la reconnaissance de la parole de plusieurs intervenants.
― 6 min lire
Explore comment le cortex auditif intègre le son au fil du temps.
― 8 min lire
Une nouvelle méthode améliore la clarté de la parole dans des environnements bruyants en utilisant des réseaux de neurones doubles.
― 6 min lire
Le modèle XLSR-Transducer déchire en transcription en temps réel avec peu de données.
― 7 min lire
Un nouveau modèle améliore la précision des capacités de reconnaissance vocale en texte dans plusieurs langues.
― 6 min lire
Des recherches montrent des risques dans les modèles de parole multi-tâches comme Whisper.
― 6 min lire
TokenVerse simplifie l'analyse des conversations orales en intégrant plusieurs tâches dans un seul modèle.
― 8 min lire
Cette étude examine le Mix-Training pour la détection de mots-clés dans des conditions de parole bruyante.
― 7 min lire
Améliorer les systèmes de reconnaissance vocale pour les langues avec peu de données en ligne.
― 6 min lire
Cette étude examine comment les réseaux de neurones interprètent la parole en utilisant des spectrogrammes.
― 8 min lire
Apprends comment le contexte améliore la précision de la reconnaissance vocale automatique et la reconnaissance des mots.
― 6 min lire
Cette étude utilise fiwGAN pour explorer les modèles d'harmonie vocalique dans la langue assamese.
― 6 min lire
Un nouveau cadre améliore la performance de l'ASR en utilisant des données et des ressources limitées.
― 7 min lire
Cet article parle des moyens d'améliorer le formatage des expressions numériques dans les transcriptions automatiques.
― 7 min lire