Xuankai Chang

VoxtLM combine la reconnaissance vocale, la synthèse, la génération de texte et la continuité dans un seul modèle.

2025-09-13T11:02:45+00:00 ― 5 min lire

Explorer les avancées dans le sous-titrage audio automatisé et son impact sur l'accessibilité.

2025-09-02T01:21:35+00:00 ― 6 min lire

Un nouveau cadre pour évaluer les modèles de base dans les tâches de parole.

2025-08-11T09:31:05+00:00 ― 10 min lire

Un nouveau modèle intègre des données audio et visuelles pour la reconnaissance vocale et la traduction.

2025-07-06T20:04:15+00:00 ― 8 min lire

EVA combine des signaux audio et visuels pour une meilleure précision de reconnaissance vocale.

2025-06-07T22:08:20+00:00 ― 5 min lire