Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Maschinelles Lernen Herausforderungen bei der Verwendung von Convnets für die Design von Audio-Filterbänken

Diese Studie untersucht Probleme bei der Verwendung von ConvNets zur Erstellung von Audio-Filterbänken.

2025-09-14T14:34:35+00:00 ― 5 min Lesedauer

Ton Fortschritte in Audio- und Sprachmodellen

Das CLAP-Modell verbindet Audio- und Textverarbeitung für verschiedene Anwendungen.

2025-09-14T13:46:00+00:00 ― 4 min Lesedauer

Rechnen und Sprache Fortschritte im Selbstüberwachten Lernen für französische Sprachtechnologien

Ein Projekt zielt darauf ab, die Verarbeitung von französischer Sprache mit selbstüberwachtem Lernen zu verbessern.

2025-09-14T12:57:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der automatischen Prosodie-Annotation

Neue Methoden verbessern, wie Maschinen Sprachrhythmus und Emotionen erkennen.

2025-09-14T12:08:50+00:00 ― 7 min Lesedauer

Ton Neue Methode zur Schallabschätzung in gestreuten Umgebungen

Ein neuer Ansatz verbessert die Schallabschätzung in Räumen mit streuenden Objekten.

2025-09-14T06:28:45+00:00 ― 6 min Lesedauer

Ton Die Auswirkungen von Unentscheidbarkeit auf die Musikproduktion

Untersucht, wie Unentscheidbarkeit die Musikkomposition und -produktion heute beeinflusst.

2025-09-14T05:40:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprecher-Diarisation mit Sprachmodellen

Dieser Artikel untersucht Fortschritte in der Sprecherdiarisierung mithilfe von Sprachmodellen für eine bessere Genauigkeit.

2025-09-14T03:14:25+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennung für Kinder

Diese Studie verbessert die Fähigkeit von ASR-Systemen, die Sprache von Kindern zu erkennen.

2025-09-14T02:25:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Die Rolle von Audio bei der Fussgängererkennung

Forscher untersuchen Audiotechnologie zur Verbesserung der Fussgängererkennung in städtischen Gebieten.

2025-09-14T00:48:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Klangfeldaufnahme-Technik

Neue Methode verbessert die Lokalisierung von Klangquellen und die Trennung von Schallfeldern.

2025-09-13T20:45:45+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Synthese von perkussiven Sounds

Eine neue Methode verbessert die Synthese von Schlagzeugklängen, indem sie sich auf spitze Transientelemente konzentriert.

2025-09-13T19:57:10+00:00 ― 6 min Lesedauer

Ton Erstellung von datenschutzfreundlichen synthetischen Sprachdatensätzen

Forscher entwickeln synthetische Sprachdaten, um die Privatsphäre bei der Sprach erken nung zu schützen.

2025-09-13T15:05:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung VoxtLM: Ein einheitlicher Ansatz für Sprache und Text

VoxtLM kombiniert Spracherkennung, Synthese, Textgenerierung und Fortsetzung in einem Model.

2025-09-13T11:02:45+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung PromptASR: Spracherkennung der nächsten Generation

Neues System verbessert die Spracherkennung mit kontextbezogenen Aufforderungen.

2025-09-13T10:14:10+00:00 ― 4 min Lesedauer

Ton Fortschritte bei den Universal Audio Modellen

EnCodecMAE kombiniert selbstüberwachtes Lernen und Audio-Codecs für bessere Audio-Aufgabenleistung.

2025-09-13T09:25:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Autismusdiagnose durch Klang-erkennung

Eine Studie über den Einsatz von Machine Learning zur Identifizierung von Kindergeräuschen für die ASD-Beurteilung.

2025-09-13T07:48:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Ein neuer Ansatz zur Erkennung von Schlüsselwörtern

Eine flexible Methode zur Erkennung von Schlüsselwörtern in der Sprache über verschiedene Sprachen hinweg.

2025-09-13T06:11:15+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Bewertung der Sprachqualität in der AudioKommunikation

Ein Blick darauf, wie die Sprachqualität mit Crowdsourcing getestet wird.

2025-09-13T05:22:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte im Audio-Captioning mit nur Text-Training

Eine neue Methode trainiert Audio-Untertitelungssysteme nur mit Textbeschreibungen.

2025-09-13T02:56:55+00:00 ― 7 min Lesedauer

Ton Wichtige Schritte zum Schreiben von wissenschaftlichen Arbeiten

Ein Leitfaden zum Verfassen von klaren und effektiven wissenschaftlichen Arbeiten.

2025-09-13T01:19:45+00:00 ― 3 min Lesedauer

Kryptographie und Sicherheit Backdoor-Angriffe: Eine verborgene Bedrohung für die Sprachverifizierung

Überprüfung der Risiken von Backdoor-Angriffen auf Sprachverifizierungssysteme.

2025-09-12T22:54:00+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Audio-Visuellen Segmentierungstechniken

Eine neue Methode verbessert die audio-visuelle Segmentierung ohne detaillierte Labels.

2025-09-12T20:28:15+00:00 ― 6 min Lesedauer

Ton Neues System verbessert Sprachausgabe bei instabilen Kopfpositionen

PIAVE hilft Maschinen, Stimmen klar zu erfassen, selbst wenn die Sprecher den Kopf drehen.

2025-09-12T19:39:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Libriheavy: Ein neuer Datensatz für Spracherkennung

Libriheavy bietet 50.000 Stunden gesprochenes Englisch an, um die Spracherkennungstechnologie zu verbessern.

2025-09-12T18:51:05+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Sprachklarheit mit AV2Wav-Technologie verbessern

AV2Wav verbessert die Sprachqualität mit Audio- und visuellen Hinweisen.

2025-09-12T17:13:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung EmoConv-Diff: Eine neue Art, Emotionen in der Sprache zu verändern

Eine frische Methode für Maschinen, um Sprachemotionen natürlich zu verändern.

2025-09-12T16:25:20+00:00 ― 6 min Lesedauer

Ton Erkennen von KI-generierten Gesangsstimmen

Neue Methoden werden entwickelt, um Deepfake-Gesangsstimmen in der Musikindustrie zu identifizieren.

2025-09-12T14:48:10+00:00 ― 6 min Lesedauer

Ton Text-to-Speech mit Core-Set-Auswahl optimieren

Die Auswahl von Kern-Sets verbessert Text-to-Speech-Modelle, indem sie sich auf vielfältige Daten konzentriert.

2025-09-12T08:19:30+00:00 ― 5 min Lesedauer

Ton Fortschritte bei Sprach-Emotions-Erkennungssystemen

Neue Modelle verändern, wie wir Emotionen in der Sprache analysieren.

2025-09-12T07:30:55+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Privatsphäre-zuerst Aktionserkennung mit Ultraschalltechnologie

Eine neue Methode nutzt Ultraschall, um Aktionen zu erkennen und dabei die Privatsphäre zu schützen.

2025-09-12T06:42:20+00:00 ― 6 min Lesedauer

Ton Ein neues Rahmenwerk für Sprecheranonymisierung

Ein flexibles Framework vorstellen, um die Forschung zur Sprachprivatsphäre zu verbessern.

2025-09-12T05:05:10+00:00 ― 7 min Lesedauer

Ton CiwaGAN: Ein neues Modell fürs Sprachlernen

CiwaGAN kombiniert die Steuerung von Sprachbewegungen und Informationsaustausch für besseres Sprechlernen.

2025-09-12T04:16:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache IntraVerbalPA: Ein neuer Ansatz zur Bewertun von Aussprache

Ein Konzept, das verbale und non-verbale Hinweise mischt, um das Sprachenlernen zu verbessern.

2025-09-12T03:28:00+00:00 ― 6 min Lesedauer

Rechnen und Sprache Erklärungen für Sprachmodelle verbessern

Eine neue Methode macht es einfacher, Sprachklassifikationsmodelle zu verstehen.

2025-09-12T02:39:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung des Sprachenlernens mit L1-MultiMDD

Ein neues System verbessert die Aussprachefähigkeiten, indem es die Einflüsse der Muttersprache berücksichtigt.

2025-09-12T01:50:50+00:00 ― 6 min Lesedauer

Aufkommende Technologien Quantencomputing trifft Musikkomposition

Entdecke, wie Quantenwerkzeuge die Musikproduktion und -aufführung verändern.

2025-09-12T00:31:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachumwandlungstechnologie

Neue Methode verbessert die Emotionsbewahrung in Sprachumwandlungsprozessen.

2025-09-12T00:13:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Emo-StarGAN: Fortschritt in der Sprachumwandlungstechnologie

Neue Methode bewahrt den emotionalen Ton in der Sprachumwandlung für eine bessere Interaktion zwischen Mensch und Computer.

2025-09-11T23:25:05+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der direkten Text-zu-Sprache-Übersetzung

Neue Systeme verbessern die Übersetzung von Text in gesprochene Sprache ohne Zwischenschritte.

2025-09-11T20:59:20+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Herzgeräuschklassifikation durch Datenaugmentation

Forscher verbessern die Genauigkeit der Herzgeräuschklassifizierung mit Codec-Datenaugmentierungsmethoden.

2025-09-11T19:22:10+00:00 ― 6 min Lesedauer