De nouvelles méthodes améliorent la précision et la rapidité des systèmes de reconnaissance vocale.
― 6 min lire
La science de pointe expliquée simplement
De nouvelles méthodes améliorent la précision et la rapidité des systèmes de reconnaissance vocale.
― 6 min lire
Une nouvelle méthode améliore la performance de la reconnaissance vocale grâce à l'intégration de données textuelles.
― 7 min lire
L'injection de texte aide à reconnaître les infos perso tout en gardant la vie privée.
― 7 min lire
Radio2Text utilise des signaux mmWave pour la reconnaissance vocale en temps réel dans des environnements bruyants.
― 8 min lire
Cette étude améliore les modèles G2P en se concentrant sur les zones sujettes aux erreurs pendant l'entraînement.
― 6 min lire
Découvrez des méthodes qui améliorent la précision du suivi des formants pour l'analyse de la parole.
― 9 min lire
De nouvelles méthodes améliorent le traitement et la génération de la parole dans les modèles linguistiques.
― 6 min lire
Des nouvelles techniques améliorent la clarté audio dans des environnements bruyants.
― 7 min lire
De nouvelles méthodes améliorent la détection de mots-clés en utilisant les données de parole disponibles.
― 6 min lire
Une nouvelle méthode améliore l'estimation de confiance dans les systèmes ASR pour une meilleure précision.
― 6 min lire
Cette étude explore les problèmes liés à l'utilisation des convnets pour la création de filtres audio.
― 6 min lire
Cet article explore les avancées en diarisation des locuteurs en utilisant des modèles de langue pour plus de précision.
― 6 min lire
Nouveau système améliore la reconnaissance vocale grâce à des invites conscientes du contexte.
― 5 min lire
EnCodecMAE combine l'apprentissage auto-supervisé et les codecs audio pour améliorer les performances dans les tâches audio.
― 7 min lire
Présentation d'une méthode flexible pour reconnaître les mots-clés dans la parole à travers les langues.
― 7 min lire
PIAVE aide les machines à extraire les voix clairement, même quand les intervenants tournent la tête.
― 7 min lire
Présentation d'un cadre flexible pour améliorer la recherche sur la confidentialité vocale.
― 9 min lire
Une nouvelle méthode simplifie la compréhension des modèles de classification de la parole.
― 8 min lire
M-AUDIODEC compresse l'audio multi-canaux tout en gardant la position des enceintes et la qualité.
― 7 min lire
Des recherches montrent de nouveaux modèles pour améliorer la clarté de la voix dans les écouteurs intelligents.
― 6 min lire
Une nouvelle méthode améliore la capacité des robots à suivre les instructions verbales avec précision.
― 7 min lire
De nouvelles méthodes améliorent notre capacité à détecter efficacement les discours falsifiés.
― 7 min lire
Une nouvelle méthode améliore les modèles ASR pour les utilisateurs individuels en utilisant la quantification et l'adaptation.
― 8 min lire
De nouveaux modèles s'adaptent pour améliorer l'efficacité et la réactivité de la reconnaissance vocale.
― 7 min lire
Améliorer la reconnaissance vocale de Whisper pour le vietnamien et d'autres langues à faibles ressources.
― 5 min lire
Cette étude examine comment l'audition influence la compréhension de la parole dans des environnements bruyants.
― 8 min lire
Utiliser le clustering k-means pour optimiser les données audio pour un meilleur entraînement des modèles.
― 7 min lire
Une méthode pour choisir le meilleur modèle ASR en fonction des caractéristiques audio.
― 6 min lire
MyST vise à améliorer l'apprentissage des sciences chez les enfants grâce à du tutorat virtuel.
― 6 min lire
Un aperçu de M2MeT 2.0 et son impact sur la transcription des réunions.
― 7 min lire
Cette étude explore comment la compression de modèle impacte la reconnaissance vocale dans des environnements bruyants.
― 7 min lire
Un nouveau modèle améliore la compréhension de la parole et des sons en même temps.
― 7 min lire
Présentation de nouveaux modèles pour mieux extraire la parole dans des environnements bruyants.
― 7 min lire
La recherche se concentre sur l'amélioration des systèmes ASR pour l'audio non segmenté.
― 6 min lire
Examiner les écarts de performance dans la reconnaissance vocale entre les différents genres.
― 7 min lire
Les LLMs améliorent la précision et la correction des erreurs dans les systèmes de reconnaissance vocale.
― 7 min lire
PP-MeT vise à améliorer la précision dans la retranscription de réunions avec plusieurs intervenants.
― 6 min lire
Cette recherche présente un modèle pour améliorer la clarté de la parole dans différentes conditions.
― 7 min lire
Ce projet vise à améliorer la reconnaissance de la parole mélangée gujarati-anglais.
― 7 min lire
Un nouveau modèle intègre l'audio et le texte pour une meilleure classification de la parole.
― 8 min lire