Xie Chen

Neue Methoden zur Auswahl von Sprachdaten minimieren das Labeln und verbessern gleichzeitig die Erkennungsgenauigkeit.

2025-09-20T13:53:50+00:00 ― 6 min Lesedauer

ELLA-V verbessert die Text-zu-Sprache-Qualität und Kontrolle und übertrifft frühere Modelle.

2025-08-30T01:17:40+00:00 ― 6 min Lesedauer

Ein neues Modell verbessert das Verständnis von Maschinen für räumlichen Sound.

2025-08-26T15:30:45+00:00 ― 5 min Lesedauer

AniTalker erstellt lebensechte Animationen mit Porträts und Audio und fängt nuancierte Gesichtsbewegungen ein.

2025-08-13T18:14:24+00:00 ― 7 min Lesedauer

GigaSpeech 2 bietet ein riesiges Dataset für Sprachen mit wenig Ressourcen, um die Spracherkennung zu verbessern.

2025-07-29T02:29:15+00:00 ― 5 min Lesedauer

Akustisches BPE verbessert die Sprachverständlichkeit und Qualität in TTS-Systemen.

2025-07-22T08:32:35+00:00 ― 6 min Lesedauer

Die Bedeutung von topologischen Defekten in der Physik und Materialwissenschaft erkunden.

2025-07-15T04:02:54+00:00 ― 5 min Lesedauer

Eine neue Methode verbessert die Leistung von Sprachmodellen bei verschiedenen Aufgaben.

2025-06-21T02:44:25+00:00 ― 7 min Lesedauer

VQTalker erstellt realistische sprechende Avatare in mehreren Sprachen und verbessert die digitalen Interaktionen.

2025-03-09T22:14:42+00:00 ― 7 min Lesedauer