Joon Son Chung

FlexiAST permet aux modèles de s'adapter efficacement à différentes tailles de patch audio.

2025-10-07T09:56:55+00:00 ― 7 min lire

Améliorer la façon dont on identifie les sources sonores en utilisant des données audio-visuelles.

2025-09-08T12:49:35+00:00 ― 8 min lire

Une nouvelle méthode améliore la vérification des locuteurs en gérant efficacement la variabilité des sessions.

2025-09-03T08:56:20+00:00 ― 7 min lire

Cet article parle d'une méthode automatisée pour générer des bandes-annonces de films de manière efficace.

2025-08-22T11:59:06+00:00 ― 9 min lire

De nouvelles méthodes améliorent la synthèse vidéo en utilisant de grands ensembles de données et des modèles avancés.

2025-08-22T11:11:42+00:00 ― 9 min lire

ElasticAST permet de traiter des audio de longueur variable de manière efficace sans perdre des détails importants.

2025-07-18T02:31:05+00:00 ― 6 min lire

Une étude sur l'amélioration de la localisation des sources sonores en utilisant mieux les infos audio et visuelles.

2025-07-14T06:12:35+00:00 ― 9 min lire

Un aperçu des avancées en reconnaissance vocale grâce au défi VoxCeleb.

2025-06-23T13:02:25+00:00 ― 6 min lire