Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Rechnen und Sprache Fortschritte im selbstüberwachten Lernen für Spracherkennung

Selbstüberwachende Modelle zeigen Einblicke in phonetische und phonemische Unterschiede in der Sprache.

2025-10-25T10:20:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Erhöhung der Polizeiauskunftspflicht durch Spracherkennungstechnologie

Forschung untersucht den Einsatz von Spracherkennung bei der Analyse von Polizei-Kameravideos.

2025-10-25T07:54:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachstress-Erkennungstechnologie

Neue Methoden verbessern die Genauigkeit der Stresserkennung bei kurzen Sprachaufnahmen.

2025-10-25T06:17:30+00:00 ― 6 min Lesedauer

Ton Neue Wege, wie Computer Musik erschaffen

Ein Blick darauf, wie Computer die Musikkomposition verändern.

2025-10-25T04:31:16+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der emotionalen Erkennung und Synthese in Sprachmodellen

Neue Techniken verbessern das emotionale Verständnis bei Sprachverarbeitungsaufgaben.

2025-10-25T01:26:00+00:00 ― 6 min Lesedauer

Ton LinDiff: Ein Sprung nach vorn in der Sprachsynthese

Neues Modell LinDiff verbessert die Sprachsynthese in Geschwindigkeit und Qualität.

2025-10-25T00:37:25+00:00 ― 5 min Lesedauer

Ton Neue Methode revolutioniert die Audiokompressionstechnologie

Ein neuer Ansatz zur Audio-Kompression reduziert die Dateigrösse, ohne die Qualität zu verlieren.

2025-10-24T18:57:20+00:00 ― 5 min Lesedauer

Ton Spracheklarheit in lauten Umgebungen verbessern

Techniken zur Verbesserung der Spracherkennung in Hintergrundgeräuschen.

2025-10-24T16:50:20+00:00 ― 6 min Lesedauer

Rechnen und Sprache Sprachassistenten mit multimodalem Sprachverständnis verbessern

Multimodale Sprachverständnis verbessert die Leistung von Sprachassistenten unter realen Bedingungen.

2025-10-24T15:43:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung HiddenSinger: Eine neue Ära in der Gesangsstimmen-Synthese

HiddenSinger verbessert die Gesangsstimmen mit coolen KI-Techniken.

2025-10-24T14:54:25+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Technologie zur Umwandlung von Elektrolaryngealstimmen

Neue Methoden verbessern die Sprachverständlichkeit für Benutzer von Elektrolarynxen.

2025-10-24T13:17:15+00:00 ― 6 min Lesedauer

Ton Innovative Fortschritte in der elektrolaryngealen Sprachtechnologie

Forscher mixen visuelle und akustische Merkmale, um die Sprache für Benutzer von Elektrolarynx zu verbessern.

2025-10-24T12:28:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Der Einfluss des Alters auf Spracherkennungssysteme

Eine Studie zeigt, wie sich das Altern auf die Leistung der automatischen Sprecherverifikation auswirkt.

2025-10-24T10:02:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung PauseSpeech: Fortschritt in der Text-zu-Sprache-Technologie

PauseSpeech verbessert TTS-Systeme mit natürlich klingender Sprache durch verbesserte Pausen.

2025-10-24T09:14:20+00:00 ― 5 min Lesedauer

Multimedia Ein neues System für die Übereinstimmung von Musik und Videos

Diese Forschung stellt ein System vor, das Musik effektiv mit Videoinhalten abgleicht.

2025-10-24T07:37:10+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung in lauten Umgebungen verbessern

Neue Methoden verbessern die Leistung der automatischen Spracherkennung bei Hintergrundgeräuschen.

2025-10-24T02:45:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung mit grossen Sprachmodellen verbessern

Diese Forschung zeigt, wie LLMs das Sprachverständnis in langen Videos verbessern.

2025-10-23T22:42:45+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Effizientes Management von grossen Sprachmodellen

Eine neue Methode optimiert Sprachmodelle für bessere Leistung mit weniger Ressourcen.

2025-10-23T21:54:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Neue Methode zur objektiven Bewertung von räumlichem Audio

Ein neuer Ansatz verbessert, wie wir die Qualität von räumlichem Audio bewerten.

2025-10-23T19:28:25+00:00 ― 5 min Lesedauer

Ton Unterscheidung zwischen vorgelesener und spontaner Sprache in Interviews

Eine Studie darüber, wie man gelesene und spontane Sprache auseinanderhalten kann.

2025-10-23T18:39:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung StyleTTS 2: Fortschritte in der Text-zu-Sprache-Technologie

Ein neues Modell verbessert den Realismus von synthetischer Sprache.

2025-10-23T15:25:30+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Malafide: Eine neue Herausforderung für Spracherkennungssysteme

Malafide bringt ausgeklügelte Spoofing-Techniken ins Spiel, die Gegenmassnahmen bei der Spracherkennung komplizierter machen.

2025-10-23T14:36:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Verfolgen von Schallquellen mit PI-RNN

Ein neues Modell verbessert die Genauigkeit und Effizienz beim Verfolgen von Schallquellen.

2025-10-23T10:34:00+00:00 ― 5 min Lesedauer

Rechnen und Sprache Wir stellen das ITALIC-Datensatz für gesprochene italienische Sprache vor

Ein neues Datenset verbessert das Verständnis gesprochener Sprache für Italienisch.

2025-10-23T08:56:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte im Selbstüberwachten Lernen für Sprachverarbeitung

MCR-Data2vec 2.0 verbessert die Spracherkennung, indem es die Konsistenz des Modells erhöht.

2025-10-23T08:08:15+00:00 ― 4 min Lesedauer

Maschinelles Lernen EM-Netzwerk: Ein neuer Ansatz im Sequenzlernen

EM-Netzwerk verbessert das Sequenzlernen in Sprach- und Sprachverarbeitungsaufgaben.

2025-10-23T07:19:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei zweisprachigen und Code-Switching ASR-Modellen

Neue Methoden verbessern die mehrsprachige Spracherkennung mit bestehenden Datenquellen.

2025-10-23T04:05:20+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der Spracherkennung für ressourcenarme Sprachen

Die Forschung konzentriert sich darauf, die Sprachtechnik für Sprachen mit unzureichenden Daten zu verbessern.

2025-10-22T23:13:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Sprachverbesserungstechniken

Ein Blick auf die neuesten Entwicklungen zur Verbesserung der Audio-Klarheit mit fortschrittlichen Modellen.

2025-10-22T21:36:40+00:00 ― 5 min Lesedauer

Ton Bewertung der Schwierigkeitsgrade von Klavierstücken mit neuem Datensatz

Ein neues Datenset hat das Ziel, Klaviernoten nach Schwierigkeitsgrad zu klassifizieren.

2025-10-22T20:48:05+00:00 ― 8 min Lesedauer

Ton Fortschritte bei der Verbesserung der Sprachqualität

Das Gesper-Framework verbessert die Sprachklarheit in lauten Umgebungen.

2025-10-22T19:59:30+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Sprachverbesserung mit Normalisierungstechniken optimieren

Diese Studie stellt eine neue Methode vor, um die Sprachqualität mit vortrainierten Modellen zu verbessern.

2025-10-22T19:10:55+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Verbesserung der Erkennung von Hassrede in Multimedia

Die Kombination aus Audio, Video und Text verbessert die Erkennung von Hassrede.

2025-10-22T15:08:00+00:00 ― 5 min Lesedauer

Ton Ein Vereinfachter Ansatz für Hybrid HMM bei ASR

In diesem Artikel wird eine neue Methode vorgestellt, um effiziente ASR-Systeme zu entwickeln.

2025-10-22T14:19:25+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Personalisierung von Sprachrecognition auf Mobilgeräten

Ein neuer Ansatz verbessert die Spracherkennung direkt auf Smartphones und schützt dabei die Privatsphäre der Nutzer.

2025-10-22T10:16:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Neues System verbessert die Sprecheridentifikation in Audio

Ein neues Verfahren verbessert die Genauigkeit bei der Identifikation von Sprechern während Gesprächen.

2025-10-22T09:27:55+00:00 ― 5 min Lesedauer

Ton Fortschritte bei der Few-Shot-Bioakustik-Ereigniserkennung

Teams verbessern die Identifizierung von Tiergeräuschen mit wenigen Beispielen im DCASE-Wettbewerb.

2025-10-22T07:50:45+00:00 ― 6 min Lesedauer

Ton Audio-Tagging auf kleinen Computern nutzen

Lerne über Audio-Tagging-Systeme und deren Nutzung auf dem Raspberry Pi.

2025-10-22T06:13:35+00:00 ― 5 min Lesedauer

Ton Fortschritte bei Algorithmen zur Erkennung von Coverversionen

Neue Techniken verbessern die Genauigkeit und Effizienz bei der Identifizierung von Cover-Songs.

2025-10-22T05:25:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der aktiven Geräuschunterdrückungstechnologie

Neue Methode verbessert die Geräuschkontrolle in 3D-Räumen.

2025-10-22T01:22:05+00:00 ― 5 min Lesedauer