Génie électrique et science des systèmes - Traitement de l'audio et de la parole

RSS

Son Avancées dans la technologie d'adaptation du texte en parole

Une nouvelle méthode améliore l'adaptation de la synthèse vocale avec un besoin minimal de données.

2025-10-31T21:48:25+00:00 ― 7 min lire

Calcul et langage Comprendre l'IA explicable dans les systèmes de reconnaissance vocale

Un aperçu des méthodes d'IA explicable dans la reconnaissance automatique de la parole.

2025-10-31T20:11:15+00:00 ― 8 min lire

Son Avancer le question-réponse audio avec le modèle MWAFM

Un nouveau modèle améliore la façon dont les machines comprennent et répondent aux questions audio.

2025-10-31T18:34:05+00:00 ― 7 min lire

Traitement de l'audio et de la parole Évaluer le tour de parole dans les systèmes de synthèse vocale

La recherche met en avant le besoin d'améliorer les tours de parole dans la technologie TTS.

2025-10-31T17:45:30+00:00 ― 8 min lire

Calcul et langage Nouveau standard pour les modèles d'apprentissage vocal

BabySLM évalue comment les machines apprennent à comprendre la parole en se basant sur le langage des enfants.

2025-10-31T11:33:20+00:00 ― 9 min lire

Traitement de l'audio et de la parole Optimiser la synthèse vocale pour améliorer l'entraînement ASR

Une nouvelle méthode améliore la sélection de la parole synthétique pour une meilleure précision des systèmes ASR.

2025-10-31T08:51:05+00:00 ― 7 min lire

Traitement de l'audio et de la parole Améliorer l'alignement des troubles de la parole avec de nouvelles techniques

Une nouvelle méthode aligne efficacement la parole disfluente avec le texte.

2025-10-31T08:02:30+00:00 ― 7 min lire

Son Avancées dans les interfaces de parole silencieuse

Améliorer les systèmes de reconnaissance de la parole silencieuse avec de nouvelles techniques.

2025-10-31T07:13:55+00:00 ― 6 min lire

Calcul et langage Améliorer la précision de la reconnaissance vocale avec un biais contextuel

De nouvelles méthodes améliorent la reconnaissance automatique de la parole pour les mots rares en utilisant le contexte.

2025-10-31T02:22:25+00:00 ― 8 min lire

Son Avancées dans le repérage de mots-clés faiblement supervisé

Une nouvelle méthode pour entraîner des modèles de détection de mots-clés en utilisant une supervision faible dans des environnements bruyants.

2025-10-31T01:33:50+00:00 ― 8 min lire

Calcul et langage Avancer la traduction vocale pour les langues à faibles ressources

Méthodes pour améliorer les systèmes de traduction de la parole pour les langues sous-représentées.

2025-10-31T00:45:15+00:00 ― 6 min lire

Son MERT : Un modèle auto-supervisé pour comprendre la musique

MERT traite les défis de la modélisation musicale grâce à des techniques d'apprentissage auto-supervisé innovantes.

2025-10-30T23:56:40+00:00 ― 8 min lire

Son Améliorer les modèles RNN-T avec l'apprentissage par renforcement

Une nouvelle approche améliore les performances des RNN-T dans la reconnaissance vocale automatique.

2025-10-30T19:53:45+00:00 ― 8 min lire

Traitement de l'audio et de la parole AVLIT : Avancer la séparation de la parole dans le bruit

Le modèle AVLIT combine le son et la vidéo pour une meilleure clarté de la parole dans des environnements bruyants.

2025-10-30T18:16:35+00:00 ― 7 min lire

Apprentissage automatique S'attaquer à l'apprentissage rapide dans les systèmes de reconnaissance vocale

Examiner l'impact des données biaisées dans les technologies de détection audio.

2025-10-30T17:28:00+00:00 ― 7 min lire

Son Améliorer la séparation des discours avec plusieurs micros

Une nouvelle méthode améliore la séparation des voix en utilisant plusieurs micros sans données étiquetées.

2025-10-30T15:50:50+00:00 ― 5 min lire

Son Amélioration des techniques anti-spoofing audio

Une étude améliore les modèles de vérification des speakers pour mieux protéger l'identité.

2025-10-30T15:02:15+00:00 ― 8 min lire

Calcul et langage Avancées dans les systèmes de réponse audio aux questions

De nouveaux modèles améliorent la façon dont les machines réagissent aux questions basées sur l’audio.

2025-10-30T13:25:05+00:00 ― 6 min lire

Calcul et langage Améliorer l'identification des langues dans la parole en alternance

La recherche vise à améliorer la détection de la langue dans les conversations anglais-mandarin.

2025-10-30T12:36:30+00:00 ― 9 min lire

Calcul et langage Avancées dans la synthèse vocale en suisse-allemand

De nouvelles méthodes améliorent la synthèse vocale pour l'allemand suisse à partir de textes en allemand standard.

2025-10-30T10:59:20+00:00 ― 6 min lire

Calcul et langage Avancées dans les systèmes de reconnaissance vocale multilingue

Explorer des méthodes pour améliorer la reconnaissance vocale multilingue dans les langues indiennes.

2025-10-30T10:10:45+00:00 ― 7 min lire

Son Avancer la Détection d'Activité Voix avec SVVAD

Découvrez comment SVVAD améliore la détection de l'activité vocale pour une meilleure vérification des locuteurs.

2025-10-30T09:22:10+00:00 ― 6 min lire

Son Avancées dans l'évaluation automatique de la prononciation

Une nouvelle méthode améliore les retours sur la prononciation pour les apprenants de langues.

2025-10-30T08:33:35+00:00 ― 7 min lire

Calcul et langage Mesurer l'adaptabilité des modèles de reconnaissance vocale

Un nouveau cadre évalue comment les modèles de parole s'adaptent à des tâches spécifiques.

2025-10-30T06:56:25+00:00 ― 8 min lire

Calcul et langage Progrès dans la traduction de la parole multilingue

La recherche améliore la traduction vocale multilingue en utilisant des connaissances sémantiques.

2025-10-30T06:07:50+00:00 ― 5 min lire

Son Faire avancer le traitement de la parole avec HuBERT

Les modèles HuBERT améliorent les tâches de parole en utilisant plusieurs résolutions pour de meilleures performances.

2025-10-29T22:02:00+00:00 ― 7 min lire

Traitement de l'audio et de la parole Avancées dans la technologie d'identification des locuteurs

De nouvelles techniques améliorent la précision pour reconnaître les intervenants et détecter les imposteurs.

2025-10-29T20:24:50+00:00 ― 6 min lire

Son Amélioration des effets audio analogiques virtuels avec l'apprentissage profond

Une nouvelle approche améliore la réponse de phase dans les effets audio virtuels en utilisant l'apprentissage profond.

2025-10-29T18:47:40+00:00 ― 6 min lire

Son Ralentissement dans la Reconnaissance Vocale : Un Regard de Plus Près sur SlothSpeech

SlothSpeech dévoile des failles dans les systèmes de reconnaissance vocale, les ralentissant considérablement.

2025-10-29T17:10:30+00:00 ― 6 min lire

Son UnDiff : Une nouvelle approche pour la clarté audio

UnDiff améliore la qualité audio grâce à des techniques innovantes de restauration de la parole.

2025-10-29T16:21:55+00:00 ― 7 min lire

Calcul et langage Nouvelles perspectives sur la modélisation du langage parlé génératif

Les chercheurs étudient comment le GSLM traite la parole dans des environnements bruyants.

2025-10-29T15:33:20+00:00 ― 8 min lire

Son Avancées dans la technologie de détection du bégaiement

De nouvelles méthodes en apprentissage automatique améliorent les capacités de détection du bégaiement.

2025-10-29T14:44:45+00:00 ― 6 min lire

Son EmoMix : Faire avancer la synthèse vocale émotionnelle

EmoMix permet de créer des discours exprimant des émotions mélangées avec une intensité précise.

2025-10-29T13:56:10+00:00 ― 6 min lire

Son MW-MAE : Une nouvelle approche de l'apprentissage audio

Découvrez la méthode innovante du Multi-Window Masked Autoencoder pour améliorer le traitement audio.

2025-10-29T11:30:25+00:00 ― 6 min lire

Son Améliorer la restauration audio avec des indices visuels

Une nouvelle méthode fusionne des données audio et visuelles pour réparer la parole manquante.

2025-10-29T10:41:50+00:00 ― 7 min lire

Calcul et langage Lutter contre les discours de haine dans les langues à faibles ressources

Explorer des méthodes pour détecter les discours de haine dans les diffusions audio de langues sous-représentées.

2025-10-29T09:04:40+00:00 ― 6 min lire

Traitement de l'audio et de la parole Raviver le Son : La Méthode BABE pour la Restauration Audio

Une nouvelle méthode restaure les hautes fréquences perdues dans les enregistrements historiques.

2025-10-29T06:38:55+00:00 ― 8 min lire

Traitement de l'audio et de la parole Améliorer la technologie ASR avec la minimisation de l'entropie généralisée au niveau séquentiel

Une nouvelle méthode améliore les systèmes de reconnaissance automatique de la parole pour plus de précision et d'adaptabilité.

2025-10-29T02:36:00+00:00 ― 7 min lire

Son Faire avancer la simulation sonore avec BEDRF

Un nouveau modèle améliore la diffraction du son dans les environnements virtuels.

2025-10-29T01:47:25+00:00 ― 8 min lire

Calcul et langage Améliorer la reconnaissance vocale avec un biais contextuel

Le biais contextuel améliore les systèmes de reconnaissance vocale, augmentant la précision dans les tâches spécialisées.

2025-10-29T00:58:50+00:00 ― 7 min lire