Xuankai Chang

VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.

2025-09-13T11:02:45+00:00 ― 4 min Lesedauer

Die Fortschritte bei automatisierten Audio-Untertitelungen und deren Einfluss auf die Barrierefreiheit erkunden.

2025-09-02T01:21:35+00:00 ― 5 min Lesedauer

Ein neues Framework zur Bewertung von Grundmodellen bei Sprachaufgaben.

2025-08-11T09:31:05+00:00 ― 8 min Lesedauer

Ein neues Modell integriert Audio- und Visualdaten für Spracherkennung und Übersetzung.

2025-07-06T20:04:15+00:00 ― 6 min Lesedauer

EVA kombiniert Audio- und visuelle Signale für eine bessere Spracherkennungsgenauigkeit.

2025-06-07T22:08:20+00:00 ― 5 min Lesedauer