Jee-weon Jung

VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.

2025-09-13T11:02:45+00:00 ― 4 min Lesedauer

Die Fortschritte bei automatisierten Audio-Untertitelungen und deren Einfluss auf die Barrierefreiheit erkunden.

2025-09-02T01:21:35+00:00 ― 5 min Lesedauer

Ein Überblick über die Fortschritte in der Sprechererkennung durch die VoxCeleb Challenge.

2025-06-23T13:02:25+00:00 ― 5 min Lesedauer

Eine Studie zeigt, dass i-Vektoren mit komplexen Modellen in der Sprechererkennung konkurrieren können.

2025-06-10T06:49:10+00:00 ― 5 min Lesedauer

ESPnet-Codec verbessert das Training und die Bewertung von neuronalen Codecs für Audio und Sprache.

2025-06-03T03:09:30+00:00 ― 7 min Lesedauer