De nouvelles méthodes pour sélectionner des données de discours minimisent l'étiquetage tout en améliorant la précision de reconnaissance.
― 7 min lire
La science de pointe expliquée simplement
De nouvelles méthodes pour sélectionner des données de discours minimisent l'étiquetage tout en améliorant la précision de reconnaissance.
― 7 min lire
De nouvelles méthodes améliorent le lien entre les descriptions textuelles et les événements sonores.
― 9 min lire
ELLA-V améliore la qualité et le contrôle de la synthèse vocale, surpassant les modèles précédents.
― 7 min lire
Un nouveau modèle améliore la compréhension de l'audio spatial par les machines.
― 6 min lire
MuPT utilise la notation ABC pour une génération musicale efficace avec l'IA.
― 7 min lire
MAP-Neo vise la transparence et la performance dans la modélisation du langage IA.
― 7 min lire
GigaSpeech 2 propose un énorme jeu de données pour les langues peu répandues afin d'améliorer la reconnaissance vocale.
― 6 min lire
Une nouvelle méthode améliore les performances des modèles de discours dans différentes tâches.
― 8 min lire
VQTalker crée des avatars parlants réalistes dans plusieurs langues, améliorant les interactions digitales.
― 8 min lire