Ziyang Ma

De nouvelles méthodes pour sélectionner des données de discours minimisent l'étiquetage tout en améliorant la précision de reconnaissance.

2025-09-20T13:53:50+00:00 ― 7 min lire

De nouvelles méthodes améliorent le lien entre les descriptions textuelles et les événements sonores.

2025-08-31T16:09:40+00:00 ― 9 min lire

ELLA-V améliore la qualité et le contrôle de la synthèse vocale, surpassant les modèles précédents.

2025-08-30T01:17:40+00:00 ― 7 min lire

Un nouveau modèle améliore la compréhension de l'audio spatial par les machines.

2025-08-26T15:30:45+00:00 ― 6 min lire

MuPT utilise la notation ABC pour une génération musicale efficace avec l'IA.

2025-08-12T09:00:00+00:00 ― 7 min lire

MAP-Neo vise la transparence et la performance dans la modélisation du langage IA.

2025-08-04T21:04:18+00:00 ― 7 min lire

GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.

2025-07-29T02:29:15+00:00 ― 6 min lire

Une nouvelle méthode améliore les performances des modèles de discours dans différentes tâches.

2025-06-21T02:44:25+00:00 ― 8 min lire

VQTalker crée des avatars parlants réalistes dans plusieurs langues, améliorant les interactions digitales.

2025-03-09T22:14:42+00:00 ― 8 min lire