Des chercheurs améliorent la détection de la parole générée par machine en ajustant les informations de phase.
― 7 min lire
La science de pointe expliquée simplement
Des chercheurs améliorent la détection de la parole générée par machine en ajustant les informations de phase.
― 7 min lire
Un nouveau cadre améliore l'étude des systèmes de reconnaissance vocale non supervisée.
― 9 min lire
Le nouveau modèle LinDiff améliore la vitesse et la qualité de la synthèse vocale.
― 6 min lire
Des chercheurs mélangent des caractéristiques visuelles et sonores pour améliorer la parole des utilisateurs d'électrolarynx.
― 6 min lire
Cette recherche montre comment les LLM améliorent la compréhension de la parole dans les longues vidéos.
― 5 min lire
Une nouvelle méthode optimise les modèles de parole pour de meilleures performances avec moins de ressources.
― 7 min lire
EM-Network améliore l'apprentissage des séquences dans les tâches de traitement de la parole et du langage.
― 7 min lire
Cette étude évalue différents modèles pour prédire la qualité de la parole synthétisée.
― 7 min lire
Cet article parle d'améliorer la reconnaissance vocale en utilisant des méthodes d'ensemble basées sur la confiance.
― 6 min lire
GenerTTS améliore la technologie de synthèse vocale pour des applications multilingues.
― 6 min lire
Un nouveau modèle améliore l'extraction de la parole des bruits de fond grâce à l'apprentissage profond.
― 6 min lire
Une étude sur l'amélioration de la reproduction sonore vocale grâce à des techniques de synthèse avancées.
― 7 min lire
De nouvelles méthodes visent à cacher l'identité des intervenants tout en gardant la clarté de la parole.
― 7 min lire
Une nouvelle méthode pour améliorer la qualité de la parole en utilisant des réseaux éconergétiques.
― 6 min lire
Des chercheurs analysent comment les émotions se partagent à travers la parole en utilisant des données variées.
― 7 min lire
De nouvelles méthodes améliorent la qualité de la parole synthétisée grâce à l'apprentissage auto-supervisé.
― 6 min lire
L'apprentissage fédéré améliore la reconnaissance vocale tout en gardant les données des utilisateurs privées.
― 7 min lire
Une nouvelle méthode améliore la détection des émotions à partir de la parole en utilisant uniquement l'audio.
― 6 min lire
O-1 améliore la reconnaissance vocale en optimisant les méthodes d'auto-formation.
― 6 min lire
La recherche met en avant des méthodes de détection en temps réel pour les faux audios créés par l'IA.
― 7 min lire
De nouvelles méthodes de réduction améliorent les performances du modèle de synthèse vocale multi-locuteurs en zéro-shot.
― 9 min lire
De nouvelles méthodes pour sélectionner des données de discours minimisent l'étiquetage tout en améliorant la précision de reconnaissance.
― 7 min lire
Une nouvelle méthode améliore le classement de la qualité de la parole en utilisant les scores de préférence des auditeurs.
― 7 min lire
Une méthode pour améliorer les systèmes ASR pour les utilisateurs qui bégayent.
― 7 min lire
De nouvelles méthodes en une seule étape améliorent la précision du suivi des formants pour les sons de la parole.
― 5 min lire
Une nouvelle méthode améliore l'intégration de la parole avec les modèles de langage.
― 8 min lire
Examiner comment les modèles de langage préentraînés améliorent la qualité de la synthèse vocale.
― 7 min lire
Le MuLanTTS de Microsoft propose des capacités de synthèse vocale en français naturelles et expressives.
― 6 min lire
Un projet vise à améliorer le traitement de la parole en français grâce à l'apprentissage auto-supervisé.
― 7 min lire
De nouvelles méthodes améliorent la façon dont les machines reconnaissent le rythme de la parole et les émotions.
― 8 min lire
Cette étude améliore la capacité des systèmes ASR à reconnaître la parole des enfants.
― 7 min lire
VoxtLM combine la reconnaissance vocale, la synthèse, la génération de texte et la continuité dans un seul modèle.
― 5 min lire
Libriheavy propose 50 000 heures d'anglais parlé pour améliorer la technologie de reconnaissance vocale.
― 6 min lire
AV2Wav améliore la qualité de la parole en utilisant des indices audio et visuels.
― 7 min lire
La sélection de sous-ensembles améliore les modèles de synthèse vocale en se concentrant sur des données variées.
― 7 min lire
Une nouvelle méthode préserve le ton émotionnel dans la conversion de voix pour une meilleure interaction humain-ordinateur.
― 7 min lire
Des recherches montrent que le discours émotionnel influence les performances des modèles dans les tâches de séparation de la parole.
― 8 min lire
La recherche combine l'apprentissage auto-supervisé et de nouvelles techniques de mesure pour améliorer l'inversion de la parole.
― 7 min lire
Des chercheurs ont développé un nouveau cadre pour améliorer la clarté de la parole pour les utilisateurs d'électrolarynges.
― 6 min lire
Une nouvelle méthode utilise des données synthétiques pour améliorer les systèmes ASR dans des domaines inconnus.
― 8 min lire