Xie Chen

De nouvelles méthodes pour sélectionner des données de discours minimisent l'étiquetage tout en améliorant la précision de reconnaissance.

2025-09-20T13:53:50+00:00 ― 7 min lire

ELLA-V améliore la qualité et le contrôle de la synthèse vocale, surpassant les modèles précédents.

2025-08-30T01:17:40+00:00 ― 7 min lire

Un nouveau modèle améliore la compréhension de l'audio spatial par les machines.

2025-08-26T15:30:45+00:00 ― 6 min lire

AniTalker crée des animations réalistes en utilisant des portraits et de l'audio, capturant des dynamiques faciales subtiles.

2025-08-13T18:14:24+00:00 ― 8 min lire

GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.

2025-07-29T02:29:15+00:00 ― 6 min lire

Le BPE acoustique améliore l'intelligibilité et la qualité de la parole dans les systèmes TTS.

2025-07-22T08:32:35+00:00 ― 8 min lire

Explorer l'importance des défauts topologiques en physique et en science des matériaux.

2025-07-15T04:02:54+00:00 ― 6 min lire

Une nouvelle méthode améliore les performances des modèles de discours dans différentes tâches.

2025-06-21T02:44:25+00:00 ― 8 min lire

VQTalker crée des avatars parlants réalistes dans plusieurs langues, améliorant les interactions digitales.

2025-03-09T22:14:42+00:00 ― 8 min lire