Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Ton Melodie-gesteuerte KI-Musikgenerierung

Ein neues Modell verbessert die Musikproduktion mit Melodien und Textbeschreibungen.

2025-05-29T20:30:48+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Sprachmodellen ohne umfangreiche Trainingsdaten

Neue Methode für Sprachmodelle verringert den Bedarf an umfangreichen Daten.

2025-05-29T17:50:26+00:00 ― 6 min Lesedauer

Ton Stimmen verändern: Der Stimmenumwandlungsprozess

Lern, wie Sprachumwandlung funktioniert und welche spannenden Anwendungen es gibt.

2025-05-29T13:49:53+00:00 ― 5 min Lesedauer

Multimedia Multimedia-Qualität mit CCI bewerten

Entdecke, wie CCI die Qualitätseinschätzungen von Multimedia verbessert.

2025-05-29T12:29:42+00:00 ― 7 min Lesedauer

Multimedia Das neue Zeitalter der Lügendetektion

Forscher kombinieren Audio- und visuelle Hinweise, um Lügen genauer zu erkennen.

2025-05-29T11:09:31+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Innovatives Kommunikationssystem für die Katastrophenhilfe

Ein neues sprachbasiertes Netzwerk überbrückt Sprachbarrieren in Notfällen.

2025-05-29T09:49:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der gerätespezifischen Spracherkennung

Lern, wie virtuelle Assistenten Nutzerbefehle besser verstehen.

2025-05-29T05:48:47+00:00 ― 7 min Lesedauer

Ton Die Revolution der Audiountertitelung mit MACE

MACE verbessert Audio-Beschreibungen, indem es Geräusche mit genauen Textbeschreibungen verknüpft.

2025-05-28T17:47:08+00:00 ― 5 min Lesedauer

Ton Vorhersage des Erfolgs von Song-Covern mit Machine Learning

Maschinelles Lernen einsetzen, um die Reaktion des Publikums auf Song-Cover vorherzusagen.

2025-05-28T15:06:46+00:00 ― 7 min Lesedauer

Ton Verbesserung der Audio-Klassifikation mit ADD-Verlust

Ein neuer Ansatz zur Verbesserung der Klassifizierung durch den Verlust der Winkelentfernungverteilung.

2025-05-28T13:46:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der Spracherkennung für Menschen mit Behinderungen

Neue Methoden verbessern Kommunikationsmittel für Menschen mit Sprachschwierigkeiten.

2025-05-28T11:06:13+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Geräuscherkennung in lauten Umgebungen

Neue Methoden mit Sprachmodellen verbessern die Geräuscherkennung bei Hintergrundgeräuschen.

2025-05-27T03:01:49+00:00 ― 6 min Lesedauer

Ton Fish-Speech: Eine neue Ära im Text-to-Speech

Fish-Speech verbessert die Sprachtechnologie für ein natürlicheres Kommunikationserlebnis.

2025-05-27T01:41:38+00:00 ― 6 min Lesedauer

Ton EmoSphere++: Eine neue Ära in emotionalen Maschinen

EmoSphere++ erlaubt Maschinen, Emotionen wie Menschen auszudrücken, was die Interaktionen verbessert.

2025-05-26T05:38:53+00:00 ― 7 min Lesedauer

Ton Neue Methode zur Schätzung von Unterwassergrenzen

U-COTANS verbessert die Erkennung von Unterwassergrenzen mithilfe von Deep-Learning-Techniken.

2025-05-26T02:58:31+00:00 ― 7 min Lesedauer

Ton Einführung von PIAST: Ein neuer Datensatz für die Forschung zu Klaviermusik

PIAST bietet eine einzigartige Sammlung von Klaviermusik für Forscher.

2025-05-26T01:38:20+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschrittliche Technologie mit 3D Audio-Visueller Segmentierung

Maschinen lernen, Geräusche und Bilder in 3D-Räumen zu verbinden.

2025-05-25T21:37:47+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Die Evolution der Sprecherdiarisierung

Wie neue Methoden die Sprecheridentifizierung in Audioaufnahmen verändern.

2025-05-25T18:57:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Zungebewegungen verfolgen: Ein neuer Blick auf Sprache

Forscher nutzen Technik, um Zungenbewegungen beim Sprechen sichtbar zu machen.

2025-05-25T16:17:03+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritte bei Sprachmodellen

Entdecke, wie Align-SLM die Sprachgenerierung am Computer verändert.

2025-05-25T12:16:30+00:00 ― 7 min Lesedauer

Ton Zielsprecher-Extraktion: Klarheit in lauten Umgebungen verbessern

Erfahre, wie TSE die Spracherkennung in lauten Umgebungen mit Text-Hinweisen verbessert.

2025-05-25T00:14:51+00:00 ― 6 min Lesedauer

Ton Innovatives Audiosystem verbessert die Sicherheit auf Baustellen

Ein neues System erkennt Schreie, um die Sicherheit der Arbeiter auf Baustellen zu verbessern.

2025-05-24T22:54:40+00:00 ― 8 min Lesedauer

Ton Fortschritte in der Technologie zur Erkennung von Sprecheremotionen

Neue Methoden zur Erkennung von Emotionen in Sprache mit fortgeschrittenen Modellen erkunden.

2025-05-24T20:14:18+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprachqualitätsbewertung mit Geräuschbewusstsein

Neuer Ansatz verbessert die Bewertung der Sprachqualität, indem er Hintergrundgeräusche berücksichtigt.

2025-05-24T12:13:12+00:00 ― 6 min Lesedauer

Ton Der Konkatenator: Eine neue Art, Musik zu machen

Ein frisches System zum Mischen von Audio-Proben, um Musikschaffenden das Innovieren zu erleichtern.

2025-05-24T05:32:17+00:00 ― 6 min Lesedauer

Ton Dynamikbereichskompression: Klangqualität verbessern

Ein Blick darauf, wie die Dynamikkompression Audioerlebnisse verbessert.

2025-05-24T04:12:06+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Sprachassistenten zur Erkennung leichter kognitiver Beeinträchtigungen nutzen

Sprachassistenten helfen dabei, frühe Anzeichen von Gedächtnisproblemen bei älteren Menschen zu erkennen.

2025-05-24T01:31:44+00:00 ― 7 min Lesedauer

Ton Dynamische Musikgenerierung für Tabletop-RPGs

Ein System erstellt in Echtzeit Musik basierend auf Erzählungen von Tischrollenspielen.

2025-05-23T16:10:27+00:00 ― 8 min Lesedauer

Rechnen und Sprache SLAM-ASR: Ein Blick auf das Potenzial der Spracherkennung

Die Stärken, Schwächen und die Zukunft von SLAM-ASR in der Spracherkennung untersuchen.

2025-05-23T14:50:16+00:00 ― 5 min Lesedauer

Signalverarbeitung Geräusche klären: Die SoundSil-DS-Methode

Eine neue Methode, um Klangfeldbilder zu klären und zu visualisieren.

2025-05-23T13:48:54+00:00 ― 7 min Lesedauer

Rechnen und Sprache Innovative Spracherkennung für die Malasar-Sprache

Ein Projekt verbessert die Spracherkennung für die Malasar-Sprache mit Tamil-Ressourcen.

2025-05-23T02:48:37+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Sprachanalyse nutzen, um Schizophrenie zu verstehen

Forscher untersuchen Sprache, um psychische Gesundheitsbewertungen bei Schizophrenie zu verbessern.

2025-05-23T00:08:15+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Die Wissenschaft der musikalischen Synchronisation

Lern, wie Musiker ihren Rhythmus mit wissenschaftlichen Modellen synchronisieren.

2025-05-22T21:27:53+00:00 ― 6 min Lesedauer

Rechnen und Sprache NeKo: Die Zukunft der Fehlerkorrektur

NeKo verbessert die Maschinenkommunikation, indem es Sprach-, Übersetzungs- und Textfehler behebt.

2025-05-22T13:26:47+00:00 ― 7 min Lesedauer

Ton Akustische Volumenrendering: Ein Sprung in den Klangrealismus

Entdecke, wie Sound virtuelle Erlebnisse durch akustische Volumenwiedergabe verbessert.

2025-05-21T22:44:46+00:00 ― 8 min Lesedauer

Maschinelles Lernen Maschinen lauschen: Ein neuer Diagnoseansatz

Diese Studie nutzt Soundanalyse, um Maschinenfehler effektiv zu identifizieren.

2025-05-21T21:24:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Debatts: Ein neues Tool für besseres Debattieren

Debatts hilft Nutzern, effektive Gegenargumente für Debatten zu formulieren.

2025-05-21T13:23:29+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Lokalisierung und Erkennung von Klangereignissen

Ein neues Modell verbessert effektiv das Identifizieren und Lokalisieren von Geräuschen.

2025-05-21T08:02:45+00:00 ― 7 min Lesedauer

Ton AuscultaBase: Die Revolution in der Körpergeräusche-Diagnose

AuscultaBase verbessert die Genauigkeit bei der Diagnose von Gesundheitszuständen, indem es verschiedene Körpergeräuschdaten nutzt.

2025-05-20T22:41:28+00:00 ― 4 min Lesedauer

Ton Ein Gesprächsbasierter Musikabrufsystem erstellen

Ein neues Dataset hilft, Musik durch freundlichen Dialog zu finden.

2025-05-20T18:40:55+00:00 ― 7 min Lesedauer