VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.
― 4 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.
― 4 min Lesedauer
Die Fortschritte bei automatisierten Audio-Untertitelungen und deren Einfluss auf die Barrierefreiheit erkunden.
― 5 min Lesedauer
Ein Überblick über die Fortschritte in der Sprechererkennung durch die VoxCeleb Challenge.
― 5 min Lesedauer
Eine Studie zeigt, dass i-Vektoren mit komplexen Modellen in der Sprechererkennung konkurrieren können.
― 5 min Lesedauer
ESPnet-Codec verbessert das Training und die Bewertung von neuronalen Codecs für Audio und Sprache.
― 7 min Lesedauer