Xuankai Chang

VoxtLM combines speech recognition, synthesis, text generation, and continuation in one model.

2025-09-13T11:02:45+00:00 ― 4 min read

Exploring advancements in automated audio captioning and its impact on accessibility.

2025-09-02T01:21:35+00:00 ― 5 min read

A new framework for assessing foundation models in speech tasks.

2025-08-11T09:31:05+00:00 ― 8 min read

A new model integrates audio and visual data for speech recognition and translation.

2025-07-06T20:04:15+00:00 ― 6 min read

EVA combines audio and visual signals for better speech recognition accuracy.

2025-06-07T22:08:20+00:00 ― 4 min read