Joon Son Chung

FlexiAST ermöglicht es Modellen, sich effizient an verschiedene Audio-Patch-Grössen anzupassen.

2025-10-07T09:56:55+00:00 ― 6 min Lesedauer

Die Art und Weise, wie wir Schallquellen mit audio-visuellen Daten identifizieren, zu verbessern.

2025-09-08T12:49:35+00:00 ― 7 min Lesedauer

Eine neue Methode verbessert die Sprecherverifikation, indem sie die Sitzungsvariabilität effektiv handhabt.

2025-09-03T08:56:20+00:00 ― 6 min Lesedauer

Der Artikel bespricht eine automatisierte Methode, um effizient Filmtrailer zu erstellen.

2025-08-22T11:59:06+00:00 ― 7 min Lesedauer

Neue Methoden verbessern die Video-Zusammenfassung mit grossen Datensätzen und fortschrittlichen Modellen.

2025-08-22T11:11:42+00:00 ― 7 min Lesedauer

ElasticAST ermöglicht die effiziente Verarbeitung von Audio mit variabler Länge, ohne wichtige Details zu verlieren.

2025-07-18T02:31:05+00:00 ― 6 min Lesedauer

Eine Studie zur Verbesserung der Klangquellenlokalisierung durch bessere Nutzung von Audio- und visuellen Informationen.

2025-07-14T06:12:35+00:00 ― 8 min Lesedauer

Ein Überblick über die Fortschritte in der Sprechererkennung durch die VoxCeleb Challenge.

2025-06-23T13:02:25+00:00 ― 5 min Lesedauer