Neuste Artikel für Sprachtechnologie

Ton DiCon: Ein neuer Ansatz zur Sprachsynthese

Wir stellen eine schnellere Methode für hochwertige Sprachsynthese mit Diffusionsmodellen vor.

2025-09-09T03:24:05+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung HiFTNet: Fortschritte in der Text-zu-Sprache-Technologie

HiFTNet bietet schnellere, hochwertige Sprachsynthese mit effizienten, innovativen Techniken.

2025-09-09T02:35:30+00:00 ― 5 min Lesedauer

Ton Die Verbesserung der Spracherkennung mit Testzeittraining

Erkunde, wie TTT die Spracherkennung verbessert, indem es sich an Verteilungsverschiebungen anpasst.

2025-09-08T14:26:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Vorstellung des SPGM-Modells zur Sprachtrennung

Ein neues Modell verbessert die Effizienz und Leistung der Sprachtrennung.

2025-09-07T10:54:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Die Verbesserung der Spracherkennung mit Audio-Augmentierungstechniken

Eine Studie zeigt, dass Audio-Augmentierung die Spracherkennung in ressourcenschwachen Sprachen verbessern kann.

2025-09-06T09:48:50+00:00 ― 6 min Lesedauer

Ton Die Umwandlung von Zungenbewegungen in Sprachlaute

Diese Studie wandelt MRI-Zungendaten in echte Sprach-Audio um.

2025-09-04T22:11:10+00:00 ― 4 min Lesedauer

Rechnen und Sprache Spracherkennung mit Low-Rank-Adaptation verbessern

Eine neue Methode verbessert die Effizienz der Spracherkennung mit niedrigrangiger Anpassung.

2025-09-04T00:19:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache HyPoradise: Verbesserung der Genauigkeit automatischer Spracherkennung

Ein neuer Massstab zur Verbesserung der ASR-Genauigkeit mit Sprachmodellen.

2025-09-02T23:13:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei konversationalen Text-zu-Sprache-Modellen

Ein neuer Ansatz für kleine, effiziente, natürlich klingende Sprachsynthese.

2025-08-31T09:41:00+00:00 ― 9 min Lesedauer

Rechnen und Sprache Spracherkennung mit akustischen Daten verbessern

Eine neue Methode integriert akustische Informationen in Sprachmodelle für eine bessere Spracherkennung.

2025-08-25T02:15:55+00:00 ― 9 min Lesedauer

Ton Die Erfassung des Sprachrhythmus: Eine neue Methode

Ein neuer Ansatz, um Stimmen mit verbesserter Rhythmusgenauigkeit zu synthetisieren.

2025-08-24T23:50:10+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Innovative Techniken zur Verbesserung von TTS-Modellen und zur Reduzierung von Wissensverlust.

2025-08-23T08:09:35+00:00 ― 7 min Lesedauer

Ton Auswirkungen der Batchgrösse auf das Training von Sprachmodellen

Diese Studie untersucht, wie die Batch-Grösse die Leistung und das Training von Sprachmodellen beeinflusst.

2025-08-22T20:00:50+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung von Sprachmodellen mit RobustDistiller

Eine neue Methode verbessert die Leistung und Effizienz von Sprachmodellen in lauten Umgebungen.

2025-08-18T05:53:30+00:00 ― 6 min Lesedauer

Ton Fortschritte bei den Eigenschaften von Text-zu-Sprache-Stimmen

Eine Studie zur Verbesserung von TTS-Systemen mit vielfältigen Sprachproben.

2025-08-16T12:35:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Die Klassifizierung von Sorani-Kurdischen Unterdialekten durch Audiodaten

Forschung identifiziert und klassifiziert die Sorani-Kurdisch-Dialekte mit Hilfe umfangreicher Audioaufnahmen.

2025-08-14T07:57:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Text-to-Speech mit RALL-E verbessern

RALL-E verbessert die Text-zu-Sprache-Synthese für klarere, natürlichere Sprache.

2025-08-13T01:11:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Audio-Lernen voranbringen mit M2D und M2D-X

Neue Methoden verbessern die Audio-Repräsentation durch selbstüberwachtes Lernen.

2025-08-12T07:22:50+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Technologie zur Bearbeitung von Sprachattributen

Neues Modell ermöglicht präzise Kontrolle über die Stimmqualitäten, während der Inhalt erhalten bleibt.

2025-08-11T18:25:30+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Die Bewertung von Sprachverarbeitungsmodellen mit SUPERB

Ein neues Framework zur Bewertung von Grundmodellen bei Sprachaufgaben.

2025-08-11T09:31:05+00:00 ― 8 min Lesedauer

Mensch-Computer-Interaktion Benutzerreaktionen auf adaptive Sprachagenten

Studie zeigt, dass Nutzer statische Sprachagenten gegenüber adaptiven bevorzugen.

2025-08-11T09:29:30+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung FlashSpeech: Ein Sprung in die Sprachsynthese

FlashSpeech bietet schnelle, hochwertige Sprachsyntheselösungen an.

2025-08-10T03:33:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der audio-visuellen Sprecherextraktion mit SEANet

SEANet verbessert die Sprechertrennung, indem es das Geräusch in der Audiobearbeitung reduziert.

2025-08-08T20:47:20+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der ASR: Ein neuer Lernansatz

Eine zweistufige aktive Lernmethode verbessert die Spracherkennungsgenauigkeit mit weniger Daten.

2025-08-08T02:09:55+00:00 ― 5 min Lesedauer

Rechnen und Sprache Bewertung von ASR-Systemen für stotternde Sprache

Diese Studie bewertet die Leistung von ASR-Systemen bei Personen, die stottern.

2025-08-07T04:18:10+00:00 ― 8 min Lesedauer

Rechnen und Sprache Untersuchung der Sicherheit von Sprachmodellen

Dieser Artikel untersucht Schwachstellen in Sprachmodellen und Möglichkeiten, ihre Sicherheit zu verbessern.

2025-08-05T23:09:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-Emotions-Erkennungstechnologie

Neue Methoden verbessern, wie Maschinen Emotionen in der Sprache erkennen.

2025-08-02T13:22:15+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Seed-TTS erstellt lebensechte Sprache aus Text für verschiedene Anwendungen.

2025-08-01T10:39:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachsynthese mit ARDiT

Das neue Modell ARDiT verbessert die Text-zu-Sprache-Synthese und die Sprachbearbeitung.

2025-07-31T07:55:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Vorstellung von mHuBERT-147: Ein kompaktes Sprachmodell

mHuBERT-147 verarbeitet Sprache effizient in mehreren Sprachen.

2025-07-30T22:12:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der automatischen Spracherkennung mit dynamischem TTA

Neue Methoden verbessern die Spracherkennung in lauten Umgebungen mit adaptiven Techniken.

2025-07-29T13:49:25+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Neuer Rahmen für klare Sprachproduktion

Eine neuartige Methode zur Optimierung der Sprachanalyse und -synthese unter Verwendung von Bewegungen des Sprachtrakt.

2025-07-28T20:49:10+00:00 ― 7 min Lesedauer

Ton Verbesserung der Sprecherdiarisierung mit Sprecher-Embeddings

Eine Studie zur Verbesserung der Audiosegmentierung durch die Integration von Sprecher-Embeddings.

2025-07-24T21:16:20+00:00 ― 5 min Lesedauer

Rechnen und Sprache Die Kluft in den Yoruba-Dialekten überbrücken

Neue Bemühungen zielen darauf ab, die Yoruba-Dialekte in der Sprachtechnologie zu unterstützen.

2025-07-23T15:03:36+00:00 ― 6 min Lesedauer

Rechnen und Sprache Wav2Vec2.0 und der Klang der Spracherkennung

In diesem Artikel geht's darum, wie Wav2Vec2.0 Sprachlaute mit Phonologie verarbeitet.

2025-07-23T05:35:45+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritt der Sprachtechnologie für tunesisches Arabisch

Diese Studie bewertet Sprachtechnologie in ressourcenarmen Sprachen wie Tunesisch-Arabisch.

2025-07-21T12:18:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprachsynthese mit Sub-Zentrum-Modellierung

Die Sprachsynthese verbessern für eine natürlichere und ausdrucksstärkere Stimmgenerierung.

2025-07-21T03:23:35+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Eine neue Art, Sprachlaute zu bearbeiten

Eine Methode für besseren Kontrolle beim Sprachbearbeiten vorstellen.

2025-07-20T12:49:05+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Wir stellen vor: Emilia – Ein neues Datenset zur Sprachgenerierung

Emilia stellt ein vielfältiges Datenset zur Verfügung, um Sprachgenerierungsmodelle zu verbessern.

2025-07-20T09:34:45+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Die Effizienz von Mamba in der Sprachtechnologie bewerten

Mamba zeigt vielversprechende Ergebnisse gegen Transformer bei Sprachaufgaben, besonders bei langen Eingaben.

2025-07-17T13:33:45+00:00 ― 5 min Lesedauer