Haibin Wu

AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.

2025-09-08T22:32:35+00:00 ― 7 min lire

Le projet EMO-SUPERB améliore la reconnaissance des émotions dans la parole grâce à des techniques améliorées et à la collaboration de la communauté.

2025-08-23T00:52:20+00:00 ― 9 min lire

Un nouveau système pour évaluer la performance des codecs audio dans différentes applis.

2025-08-22T23:15:10+00:00 ― 9 min lire

Un nouveau cadre pour évaluer les modèles de base dans les tâches de parole.

2025-08-11T09:31:05+00:00 ― 10 min lire

Examiner comment les codecs gardent les émotions dans les données vocales.

2025-07-12T06:26:10+00:00 ― 7 min lire

Cet article parle des méthodes d'entraînement efficaces pour les modèles de parole en utilisant l'apprentissage auto-supervisé.

2025-06-16T15:02:50+00:00 ― 6 min lire

Le modèle MCMamba améliore la qualité de la parole dans des environnements bruyants en utilisant des infos spatiales et spectraales.

2025-06-09T21:54:45+00:00 ― 5 min lire

Cette étude évalue des méthodes à faible latence pour améliorer la qualité du son dans des conditions bruyantes.

2025-06-09T20:17:35+00:00 ― 8 min lire

Un aperçu des résultats du défi Codec-SUPERB et des métriques de performance des codecs.

2025-06-05T06:58:50+00:00 ― 6 min lire

ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.

2025-06-03T03:09:30+00:00 ― 9 min lire

Une nouvelle méthode améliore l'efficacité des charges de travail d'attention pour les systèmes IA.

2025-06-01T21:34:30+00:00 ― 8 min lire

VERSA évalue efficacement la qualité de la parole, de l'audio et de la musique.

2025-01-28T09:33:18+00:00 ― 11 min lire