Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Audio- und Sprachverarbeitung Crosstalk reduzieren für klareres Sprechen

Ein neues System verbessert die Sprachklarheit in Umgebungen mit mehreren Sprechern.

2025-08-02T14:10:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-Emotions-Erkennungstechnologie

Neue Methoden verbessern, wie Maschinen Emotionen in der Sprache erkennen.

2025-08-02T13:22:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierung mit Frieren

Das Frieren-Modell verbessert die Audioqualität und den Sync für Videos.

2025-08-02T10:07:55+00:00 ― 6 min Lesedauer

Ton Innovative Audio-Synthese aus Textbeschreibungen

Eine neue Methode erzeugt einzigartige Klänge aus Text mit einem einfachen Synthesizer.

2025-08-02T08:30:45+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritte in der Sprachübersetzungstechnologie

Neue Methode verbessert die Sprachübersetzung in lauten Umgebungen und bewahrt gleichzeitig die Ausdrucksstärke.

2025-08-01T13:53:20+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Raga-Identifikation mit neuem Datensatz

Ein neuer Datensatz verbessert das Studium der Raga-Identifikation in der indischen Musik.

2025-08-01T12:16:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Seed-TTS erstellt lebensechte Sprache aus Text für verschiedene Anwendungen.

2025-08-01T10:39:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-zu-Gesang-Technologie

Neue Methode verbessert die Umwandlung von Sprache in Gesang mithilfe von selbstüberwachtem Lernen.

2025-08-01T09:50:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache StreamSpeech: Eine neue Art, Sprache zu übersetzen

StreamSpeech verbessert die Echtzeit-Sprachübersetzung in Bezug auf Effizienz und Qualität.

2025-08-01T03:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Einführung des 4D-Modells in der Spracherkennung

Ein neues Modell verbessert die Spracherkennung mit mehreren Dekodierungs-Methoden.

2025-08-01T01:44:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der arabischen Spracherkennung durch Wissensdistillation

Eine Studie zur Verbesserung der automatischen Spracherkennung für arabische Dialekte mit effizienten Modelltechniken.

2025-07-31T23:18:50+00:00 ― 5 min Lesedauer

Rechnen und Sprache BLSP-Emo: Ein neuer Schritt in empathischer KI

Wir stellen BLSP-Emo vor, ein Modell, das Sprache und Emotionen versteht, für bessere Interaktionen.

2025-07-31T21:41:40+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Dateninterpretation neu betrachten: Studie zu Klang und Bildern

Eine aktuelle Studie bestätigt wichtige Ergebnisse zur Dateninterpretation mit Klang und Bildern.

2025-07-31T20:04:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Text und Bilder für die Musikgenerierung kombinieren

Neues Modell generiert Musik mit Hilfe von Text und visuellen Informationen.

2025-07-31T12:47:15+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung DenseAV: Klänge und Bilder verbinden

Ein System, das Geräusche mit visuellen Eindrücken verbindet und dadurch das Verständnis von Maschinen verbessert.

2025-07-31T10:21:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachsynthese mit ARDiT

Das neue Modell ARDiT verbessert die Text-zu-Sprache-Synthese und die Sprachbearbeitung.

2025-07-31T07:55:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Sprachtrennungstechniken

Neue Methoden verbessern die Klarheit beim Isolieren von Stimmen aus Audio-Mischungen.

2025-07-31T04:41:25+00:00 ― 4 min Lesedauer

Rechnen und Sprache Verbesserung des AI-Verstehens durch kontextuelles Parsing

Wir stellen SPICE vor, eine Aufgabe, um AI-Interaktionen mit kontextuellen Informationen zu verbessern.

2025-07-30T23:49:55+00:00 ― 8 min Lesedauer

Ton Fortschritte in der kreuzmodalen Musikverarbeitung

Die Forschung stellt das MOSA-Dataset vor, das das Verständnis der visuellen und auditiven Aspekte von Musik verbessert.

2025-07-30T23:01:20+00:00 ― 7 min Lesedauer

Rechnen und Sprache Vorstellung von mHuBERT-147: Ein kompaktes Sprachmodell

mHuBERT-147 verarbeitet Sprache effizient in mehreren Sprachen.

2025-07-30T22:12:45+00:00 ― 5 min Lesedauer

Ton Audio-Untertitelung durch innovative Methoden transformieren

Ein neuer Ansatz für Audio-Beschriftung verringert die Abhängigkeit von gepaarten Daten.

2025-07-30T21:24:10+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Emotionserkennung durch Sprache

Neue Methoden verbessern, wie Maschinen Emotionen in menschlicher Sprache erkennen.

2025-07-30T18:09:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Zielsprachendiarisierungstechnologie

Ein Blick auf neue Methoden zum Verständnis von überlappender Sprache während Gesprächen.

2025-07-30T14:06:55+00:00 ― 8 min Lesedauer

Maschinelles Lernen Herausforderungen bei Audio-Wasserzeichen-Techniken

Untersuchung von Schwachstellen in Audio-Wasserzeichen-Methoden gegen reale Bedrohungen.

2025-07-30T13:18:20+00:00 ― 7 min Lesedauer

Ton Einführung von PianoMotion10M: Ein neuer Datensatz für das Klavierlernen

PianoMotion10M bietet detaillierte Handbewegungen, um Klavierlernenden zu helfen.

2025-07-30T01:09:35+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Klanggenerierung aus Video

Ein neues Modell verbessert die Klanganpassung an visuelle Aktionen in Videos.

2025-07-29T23:32:25+00:00 ― 11 min Lesedauer

Ton Fortschritte in der 3D-Audio-Wiedergabe mit AVGS

Neues Modell verbessert realistische Audioerlebnisse in virtuellen Umgebungen.

2025-07-29T20:18:05+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Audio-Technologie zur Fussgängerverfolgung nutzen

Diese Studie untersucht Audio-Methoden zur Verfolgung von Fussgängerbewegungen in städtischen Gebieten.

2025-07-29T17:52:20+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Foley-Audio mit dem MINT-Datensatz voranbringen

Ein neuer Datensatz verbessert die Erstellung von Foley-Audio für multimediale Inhalte.

2025-07-29T17:03:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der automatischen Spracherkennung mit dynamischem TTA

Neue Methoden verbessern die Spracherkennung in lauten Umgebungen mit adaptiven Techniken.

2025-07-29T13:49:25+00:00 ― 7 min Lesedauer

Ton SPEAR: Ein neuer Ansatz zur Klanganalyse

SPEAR sagt das Klangverhalten in 3D-Räumen voraus, indem es nur minimal Daten sammelt.

2025-07-29T10:35:05+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der Übersetzung von Code-Switching-Sprache

Eine neue Methode verbessert die Übersetzung von gemischter Sprache in Englisch.

2025-07-29T09:46:30+00:00 ― 5 min Lesedauer

Ton Verbesserung der Sprecherverifikation in der Funkkommunikation

Eine neue Methode verbessert die Genauigkeit der Sprecherverifizierung in schwierigen Funkumgebungen.

2025-07-29T08:57:55+00:00 ― 7 min Lesedauer

Ton Verbesserung von Hintertürangriffen in der Spracherkennung

Neue Methode zielt auf Rhythmusänderungen für heimliche Sprachangriffe ab.

2025-07-29T08:09:20+00:00 ― 6 min Lesedauer

Ton GAMA: Ein neues Modell fürs Klangverständnis

GAMA verbessert die Audioverarbeitung, indem es Klang- und Sprachkenntnisse zusammenführt.

2025-07-29T04:55:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung AV-CrossNet: Verbesserung der Spracherkennung bei Geräuschen

Ein neues System hilft dabei, Sprache von Geräuschen zu trennen, damit die Kommunikation klarer wird.

2025-07-29T03:17:50+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung GigaSpeech 2: Ein neues Dataset für Spracherkennung

GigaSpeech 2 bietet ein riesiges Dataset für Sprachen mit wenig Ressourcen, um die Spracherkennung zu verbessern.

2025-07-29T02:29:15+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Die Revolution im Text-to-Speech mit DiTTo-TTS

Ein neues Modell verbessert die Text-zu-Sprache-Technologie mit Effizienz und Anpassungsfähigkeit.

2025-07-29T01:40:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Neuer Rahmen für klare Sprachproduktion

Eine neuartige Methode zur Optimierung der Sprachanalyse und -synthese unter Verwendung von Bewegungen des Sprachtrakt.

2025-07-28T20:49:10+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Die Auswirkungen von Gesten in virtuellen Erklärungen

Diese Studie untersucht, wie Gesten das Lernen von virtuellen Agenten beeinflussen.

2025-07-28T19:12:00+00:00 ― 7 min Lesedauer