Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Audio- und Sprachverarbeitung Fortschritte in der multimodalen Verarbeitung mit CoAVT

CoAVT integriert Audio-, Visual- und Textdaten für ein besseres Verständnis.

2025-08-28T12:02:50+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprecher-Diarisation mit der E-SHARC-Methode

E-SHARC verbessert die Sprecheridentifikation in verschiedenen Audio-Umgebungen.

2025-08-28T06:22:45+00:00 ― 6 min Lesedauer

Ton MoodLoopGP: Emotionen in loopbarer Musik gestalten

Ein neues System erstellt Musik, die darauf ausgelegt ist, Freude und Traurigkeit auszudrücken.

2025-08-28T04:45:35+00:00 ― 6 min Lesedauer

Rechnen und Sprache Risiken von KI-generierter Sprachtechnologie

Die Gefahren und ethischen Bedenken der synthetischen Sprachgenerierung untersuchen.

2025-08-27T23:54:05+00:00 ― 6 min Lesedauer

Ton Einflüsse in generativen Musikmodellen navigieren

Ein Leitfaden zum Verstehen von Musikähnlichkeiten in generativen Modellen.

2025-08-27T22:16:55+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung Techniken zur Klangwiedergabe und -bewertung

Eine Studie zur Klangsynthetisierung und deren Bewertung in kontrollierten Umgebungen.

2025-08-27T16:36:50+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in Techniken zur Klangquellenlokalisierung

Eine neue Methode verbessert die Genauigkeit beim Lokalisieren von sich bewegenden Schallquellen mit Mikrofonarrays.

2025-08-27T01:13:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Ein neuer Ansatz zur Bewertung der Audioqualität mit PAM

PAM bietet eine neuartige Möglichkeit, die Audioqualität zu messen, ohne dass man Referenzaufnahmen braucht.

2025-08-26T21:10:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Neue Methode zur Beseitigung von Echo-Sprachübertragungen

Eine Methode verbessert die Sprachklarheit in lauten Umgebungen, ohne dass klare Trainingsdaten vorhanden sind.

2025-08-26T17:56:30+00:00 ― 6 min Lesedauer

Ton Audio Flamingo: Ein neues Modell für das Verständnis von Sound

Audio Flamingo ist super darin, zuzuhören, zu quatschen und sich an neue Audioaufgaben anzupassen.

2025-08-26T16:19:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschrittliche räumliche Klanglogik in Maschinen

Ein neues Modell verbessert das Verständnis von Maschinen für räumlichen Sound.

2025-08-26T15:30:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung von Echtzeit-Spracherkennungssystemen

Ein neues Modell verbessert die Sprach-zu-Text-Effizienz in Echtzeitanwendungen.

2025-08-26T11:27:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Spracherkennung für ressourcenschwache Sprachen

Neue Methoden verbessern ASR für unterrepräsentierte Sprachen, indem sie Daten aus ähnlichen Sprachen nutzen.

2025-08-26T10:39:15+00:00 ― 6 min Lesedauer

Rechnen und Sprache Die Neubewertung der Rolle von Geräuschen in Sprachbeziehungen

Diese Studie bewertet Klänge im Vergleich zu Wörtern beim Rekonstruieren von Sprachbaumfamilien.

2025-08-26T03:22:00+00:00 ― 7 min Lesedauer

Maschinelles Lernen Fortschritte in der KI-Musikgenerierung

Neues Modell verbessert die Musikproduktion mit Nutzerfeedback.

2025-08-25T21:41:55+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Wiedergeboren: Eine neue Ära im unüberwachten ASR

Reborn bietet innovative Lösungen für automatische Spracherkennung ohne beschriftete Daten.

2025-08-25T19:16:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Klangverwandlung: Das Hör-, Plauder- und Bearbeitungs-Tool

Ein neues Tool hilft Nutzern, Sounds ganz einfach mit einfachen Textanweisungen zu verändern.

2025-08-25T17:39:00+00:00 ― 9 min Lesedauer

Rechnen und Sprache Fortschritte in der Sprachtechnologie

Ein neues Modell kombiniert gesprochene und geschriebene Sprache für bessere Kommunikation.

2025-08-25T03:53:05+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der Spracherkennungstechnologie

Ein Blick auf neue Modelle für natürliche gesprochene Antworten.

2025-08-25T03:04:30+00:00 ― 7 min Lesedauer

Rechnen und Sprache Spracherkennung mit akustischen Daten verbessern

Eine neue Methode integriert akustische Informationen in Sprachmodelle für eine bessere Spracherkennung.

2025-08-25T02:15:55+00:00 ― 9 min Lesedauer

Mensch-Computer-Interaktion Krebsverständnis durch Musik verändern

Musik zu nutzen, um Krebs zu erklären, kann das Verständnis und das Interesse steigern.

2025-08-25T01:27:20+00:00 ― 7 min Lesedauer

Ton Verstehen von Techniken zur Schallquellenlokalisierung

Lern, wie Schallortung die Quelle von Geräuschen mit fortschrittlichen Techniken identifiziert.

2025-08-25T00:38:45+00:00 ― 4 min Lesedauer

Ton Die Erfassung des Sprachrhythmus: Eine neue Methode

Ein neuer Ansatz, um Stimmen mit verbesserter Rhythmusgenauigkeit zu synthetisieren.

2025-08-24T23:50:10+00:00 ― 8 min Lesedauer

Rechnen und Sprache Verbesserung der medizinischen Transkription mit KI

LLMs verbessern die Genauigkeit bei medizinischen Transkriptionen, was der Patientenversorgung zugutekommt.

2025-08-24T16:32:55+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Anpassung der Melodienextraktion für verschiedene Musikstile

Eine Methode zur Verbesserung der Melodieextraktion über verschiedene Musikstile hinweg mit minimalem Aufwand für den Menschen.

2025-08-24T15:44:20+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprecherdiarisierung mit Mehrmikrofonansätzen

Neue Methoden verbessern die Erkennung von Sprachaktivität und Überlappungen beim Speaker Diarization.

2025-08-24T13:18:35+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Depressionsdiagnose mit Sprachanalyse verbessern

Neue Methode integriert Sprachsignale für verbesserte Depressionsdiagnose.

2025-08-23T18:41:10+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Gleichmässige Klangfelder erstellen: Techniken und Einblicke

In diesem Artikel geht's darum, wie man mit verschiedenen Anordnungen immersive Klangfelder erstellen kann.

2025-08-23T17:04:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Qualität von künstlicher Nachhall

Eine neue Methode reduziert unerwünschte metallische Geräusche in der Audio-Raumakustik.

2025-08-23T15:26:50+00:00 ― 5 min Lesedauer

Signalverarbeitung Chirp MFCC: Ein neuer Ansatz in der Audiobearbeitung

Chirp MFCC verbessert die Audio-Signalrepräsentation für eine bessere Klassifizierung und Erkennung.

2025-08-23T08:58:10+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Innovative Techniken zur Verbesserung von TTS-Modellen und zur Reduzierung von Wissensverlust.

2025-08-23T08:09:35+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennungstechnologie für Emotionen

Das EMO-SUPERB-Projekt verbessert die Spracherkennung von Emotionen durch verbesserte Techniken und Zusammenarbeit in der Community.

2025-08-23T00:52:20+00:00 ― 7 min Lesedauer

Rechnen und Sprache Sprachmodelle durch Sprachstile voranbringen

Ein neues Framework verbessert Sprachmodelle, indem es verschiedene Sprechstile erkennt und darauf reagiert.

2025-08-23T00:03:45+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Codec-SUPERB: Ein Benchmark für Audio-Codecs

Ein neues System, um die Leistung von Audio-Codecs in verschiedenen Anwendungen zu bewerten.

2025-08-22T23:15:10+00:00 ― 7 min Lesedauer

Ton Auswirkungen der Batchgrösse auf das Training von Sprachmodellen

Diese Studie untersucht, wie die Batch-Grösse die Leistung und das Training von Sprachmodellen beeinflusst.

2025-08-22T20:00:50+00:00 ― 7 min Lesedauer

Ton Die Zukunft der Musikgenerierung mit KI

Entdecke, wie KI die Musikproduktion durch die Zusammenarbeit mit Menschen verändert.

2025-08-22T10:17:50+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Die Verbesserung der Sprachverifizierung für Kinder

ASV-Systeme verbessern, um die Stimmen von Kindern genau zu erkennen.

2025-08-22T09:29:15+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Schätzung von Raummaterialien Eigenschaften

Die Forschung hebt neue Modelle für bessere Audioqualität in verschiedenen Umgebungen hervor.

2025-08-22T03:00:35+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Die Fusion von Sound und Vision in der Datenrepräsentation

Untersuchen, wie Klang und Sicht zusammen das Verständnis von Daten verbessern.

2025-08-21T17:17:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung CLAPSep: Fortschrittliche Methoden zur Zielgeräuschextraktion

CLAPSep verbessert die Klangtrennung mit vortrainierten Modellen und Benutzeranfragen für genauere Ergebnisse.

2025-08-21T16:29:00+00:00 ― 5 min Lesedauer