VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.
― 4 min Lesedauer
Hochmoderne Wissenschaft einfach erklärt
VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.
― 4 min Lesedauer
Die Fortschritte bei automatisierten Audio-Untertitelungen und deren Einfluss auf die Barrierefreiheit erkunden.
― 5 min Lesedauer
Ein neues Framework zur Bewertung von Grundmodellen bei Sprachaufgaben.
― 8 min Lesedauer
Ein neues Modell integriert Audio- und Visualdaten für Spracherkennung und Übersetzung.
― 6 min Lesedauer
EVA kombiniert Audio- und visuelle Signale für eine bessere Spracherkennungsgenauigkeit.
― 5 min Lesedauer