Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.
― 9 min lire
La science de pointe expliquée simplement
Cette étude présente un ensemble de données et une méthode pour améliorer la précision de la reconnaissance vocale chinoise en utilisant le Pinyin.
― 9 min lire
Cette étude se concentre sur l'amélioration de la détection des faux audios en utilisant des méthodes avancées.
― 6 min lire
Comprendre l'incertitude améliore la précision de la reconnaissance des émotions dans des situations réelles.
― 8 min lire
Un système de reconnaissance de locuteurs dans des audio multilingues sans avoir besoin de beaucoup de données.
― 7 min lire
Améliorer la technologie d'anonymisation des locuteurs pour neuf langues afin de garantir la vie privée.
― 7 min lire
Les recherches montrent que la vidéo aide à améliorer la reconnaissance vocale dans des environnements bruyants.
― 6 min lire
Une nouvelle méthode améliore la précision dans la reconnaissance de la parole de plusieurs intervenants.
― 6 min lire
Explore comment le cortex auditif intègre le son au fil du temps.
― 8 min lire
Une nouvelle méthode améliore la clarté de la parole dans des environnements bruyants en utilisant des réseaux de neurones doubles.
― 6 min lire
Le modèle XLSR-Transducer déchire en transcription en temps réel avec peu de données.
― 7 min lire
Un nouveau modèle améliore la précision des capacités de reconnaissance vocale en texte dans plusieurs langues.
― 6 min lire
Des recherches montrent des risques dans les modèles de parole multi-tâches comme Whisper.
― 6 min lire
TokenVerse simplifie l'analyse des conversations orales en intégrant plusieurs tâches dans un seul modèle.
― 8 min lire
Cette étude examine le Mix-Training pour la détection de mots-clés dans des conditions de parole bruyante.
― 7 min lire
Améliorer les systèmes de reconnaissance vocale pour les langues avec peu de données en ligne.
― 6 min lire
Cette étude examine comment les réseaux de neurones interprètent la parole en utilisant des spectrogrammes.
― 8 min lire
Apprends comment le contexte améliore la précision de la reconnaissance vocale automatique et la reconnaissance des mots.
― 6 min lire
Cette étude utilise fiwGAN pour explorer les modèles d'harmonie vocalique dans la langue assamese.
― 6 min lire
Un nouveau cadre améliore la performance de l'ASR en utilisant des données et des ressources limitées.
― 7 min lire
Cet article parle des moyens d'améliorer le formatage des expressions numériques dans les transcriptions automatiques.
― 7 min lire
Des chercheurs explorent des approches sans texte pour mieux comprendre le langage parlé.
― 8 min lire
Un nouveau modèle améliore la clarté de la voix en s'attaquant au bruit et aux échos.
― 8 min lire
Un nouveau jeu de données permet aux soins de santé d'utiliser des systèmes de questions par la parole pour les images médicales.
― 9 min lire
Une étude sur l'amélioration de la précision de la transcription grâce à une meilleure conception des invites.
― 7 min lire
Une nouvelle approche améliore les systèmes de reconnaissance vocale en utilisant des descriptions de l'environnement sonore.
― 8 min lire
Combiner la synthèse vocale et des données réelles améliore efficacement les systèmes de reconnaissance vocale.
― 5 min lire
Une nouvelle méthode améliore la conversion de la parole silencieuse en audio compréhensible.
― 7 min lire
Une nouvelle méthode améliore la séparation des voix dans des environnements bruyants avec plusieurs intervenants.
― 6 min lire
Cette étude présente une méthode pour évaluer le sens des signaux sonores.
― 7 min lire
De nouvelles méthodes visent à améliorer la reconnaissance de la parole chuchotée dans les systèmes automatiques.
― 8 min lire
Les modèles d'IA améliorent la précision des conversions de la parole en texte.
― 6 min lire
Examiner des techniques pour protéger la vie privée tout en analysant des conversations enregistrées.
― 6 min lire
Un nouveau modèle intègre des données audio et visuelles pour la reconnaissance vocale et la traduction.
― 8 min lire
De nouvelles méthodes améliorent la précision de la reconnaissance vocale pour les accents divers.
― 6 min lire
Wav2graph crée des graphes de connaissances à partir de la langue parlée pour améliorer la compréhension de l'IA.
― 9 min lire
MulliVC transforme les voix à travers les langues avec une précision et une clarté impressionnantes.
― 6 min lire
Un nouveau système de navigation robotique comprend les commandes vocales à travers les émotions.
― 7 min lire
Le modèle TOGGL améliore la précision de la transcription dans les situations de discours qui se chevauchent.
― 7 min lire
Une méthode pour améliorer la qualité de la reconnaissance vocale dans des environnements bruyants.
― 8 min lire
Des chercheurs ont développé SaSLaW pour améliorer l'adaptation de la parole des machines dans divers environnements.
― 6 min lire