Ziyang Ma

Neue Methoden zur Auswahl von Sprachdaten minimieren das Labeln und verbessern gleichzeitig die Erkennungsgenauigkeit.

2025-09-20T13:53:50+00:00 ― 6 min Lesedauer

Neue Methoden verbessern die Verknüpfung von Textbeschreibungen zu Klangereignissen.

2025-08-31T16:09:40+00:00 ― 7 min Lesedauer

ELLA-V verbessert die Text-zu-Sprache-Qualität und Kontrolle und übertrifft frühere Modelle.

2025-08-30T01:17:40+00:00 ― 6 min Lesedauer

Ein neues Modell verbessert das Verständnis von Maschinen für räumlichen Sound.

2025-08-26T15:30:45+00:00 ― 5 min Lesedauer

MuPT nutzt die ABC-Notation für eine effektive Musikgenerierung mit KI.

2025-08-12T09:00:00+00:00 ― 6 min Lesedauer

MAP-Neo zielt auf Transparenz und Performance in der KI-Sprachmodellierung ab.

2025-08-04T21:04:18+00:00 ― 5 min Lesedauer

GigaSpeech 2 bietet ein riesiges Dataset für Sprachen mit wenig Ressourcen, um die Spracherkennung zu verbessern.

2025-07-29T02:29:15+00:00 ― 5 min Lesedauer

Eine neue Methode verbessert die Leistung von Sprachmodellen bei verschiedenen Aufgaben.

2025-06-21T02:44:25+00:00 ― 7 min Lesedauer

VQTalker erstellt realistische sprechende Avatare in mehreren Sprachen und verbessert die digitalen Interaktionen.

2025-03-09T22:14:42+00:00 ― 7 min Lesedauer