Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Audio- und Sprachverarbeitung Anpassen der Abtastraten für realistische Audioeffekte

Erforschen von Methoden, um RNNs für unterschiedliche Audio-Abtastraten anzupassen.

2025-06-03T01:32:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Whisper-Medusa: Effizienz der Spracherkennung verbessern

Neues Modell erzielt schnellere Spracherkennung, ohne die Genauigkeit zu opfern.

2025-06-03T00:43:45+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Matryoshka-Speaker-Embeddings: Ein flexibler Ansatz zur Spracherkennung

Entdecke, wie Matryoshka-Embeddings die Effizienz und Flexibilität der Sprechererkennung verbessern.

2025-06-02T20:40:50+00:00 ― 5 min Lesedauer

Ton NanoVoice: Fortschritt in personalisierter Text-zu-Sprache-Technologie

Hier ist NanoVoice, ein schnelles und effektives Text-zu-Sprache-Modell für personalisierte Audios.

2025-06-02T19:52:15+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Anpassung von Text-zu-Sprache

Das neue Modell VoiceGuider verbessert TTS für verschiedene Sprecher.

2025-06-02T19:03:40+00:00 ― 6 min Lesedauer

Ton Fortschritte in der mehrsprachigen Sprachumwandlung

Eine neuartige Methode, um Stimmen über Sprachen hinweg zu konvertieren und dabei einzigartige Merkmale zu bewahren.

2025-06-02T15:49:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte im Text-to-Speech-Stiltransfer

Neue Techniken verbessern die Ausdrucksqualität der Sprache bei verschiedenen Sprechern.

2025-06-02T15:00:45+00:00 ― 6 min Lesedauer

Ton Musikklassifikation mit perceptuellen Metriken verbessern

Dieser Artikel untersucht die Rolle von Wahrnehmungsmetriken in der Klassifizierung von Musikgenres.

2025-06-02T12:35:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Multi-Task-Lernen in Sprachmodellen

Eine neue Methode verbessert die Sprach- und Audioverarbeitung bei verschiedenen Aufgaben.

2025-06-02T10:57:50+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprecher-Diarisation in Meetings

Ein neues System verbessert die Sprecheridentifikation bei Gesprächen mit mehreren Teilnehmern.

2025-06-02T06:54:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der emotionalen Text-zu-Sprache-Technologie

Ein neues Framework verbessert den emotionalen Ausdruck in TTS-Systemen.

2025-06-02T02:52:00+00:00 ― 6 min Lesedauer

Ton Drucksensoren: Ein neues Risiko fürs Abhören

Neueste Erkenntnisse zeigen, dass Drucksensoren zum Abhören verwendet werden können.

2025-06-01T13:54:40+00:00 ― 4 min Lesedauer

Ton Fortschritte bei der Geräuscherkennung mit PMAM

Ein neuer Algorithmus verbessert die Erkennung von Klangereignissen mithilfe von selbstüberwachtem Lernen.

2025-06-01T10:40:20+00:00 ― 5 min Lesedauer

Ton Die Herausforderung der Erkennung von gefälschter Sprache angehen

Die Forschung konzentriert sich darauf, Methoden zur Erkennung von realistisch gefälschter Sprache zu verbessern.

2025-06-01T09:51:45+00:00 ― 5 min Lesedauer

Maschinelles Lernen Fortschritte in der Audio-Video-Generierungstechniken

Eine neue Methode vereinfacht die Erstellung von Audio und Video für bessere Synchronisation.

2025-06-01T08:14:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Text2FX: Audioeffekte mit Sprache vereinfachen

Steuer die Audioeffekte mit einfachen Sprachbeschreibungen für einfachere Soundanpassungen.

2025-06-01T00:08:45+00:00 ― 6 min Lesedauer

Ton Fortschrittliche Multi-Audio-Verarbeitung mit MALLM

Ein neues Modell und Benchmark zur Bewertung von Multi-Audio-Aufgaben vorstellen.

2025-05-31T19:17:15+00:00 ― 6 min Lesedauer

Ton Emotionen animieren für realistische sprechende Köpfe

Ein neues System modelliert die emotionale Intensität bei animierten Charakteren für mehr Realismus.

2025-05-31T16:51:30+00:00 ― 7 min Lesedauer

Ton OpenSep: Fortschritt in der Audio-Trenntechnologie

OpenSep automatisiert die Audio-Trennung für klarere Klangerlebnisse ohne manuelle Eingaben.

2025-05-31T07:15:34+00:00 ― 6 min Lesedauer

Ton PALM: Ein neuer Ansatz zur Audioerkennung

PALM verbessert die Audioerkennung, indem es die Darstellung und Effizienz von Prompts optimiert.

2025-05-31T01:54:50+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Gitarre-Pickups verstehen: Drahtwicklungen und Stärke

Erforscht, wie Drahtwicklungen und Stärke den Sound von Gitarren-Pickups beeinflussen.

2025-05-31T00:34:39+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennungstechnologie

Eine neue Methode verbessert die Spracherkennung für lange Aufnahmen.

2025-05-30T21:54:17+00:00 ― 5 min Lesedauer

Ton Integration von Audio-Visuellen Daten für Sprachverarbeitung

Diese Studie untersucht, wie Audio, Video und Text zusammen in der Spracherkennung funktionieren.

2025-05-30T15:13:22+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte bei Text-to-Speech mit neuem Intonationsmodell

Ein neues Modell verbessert die Natürlichkeit in Text-zu-Sprache-Systemen, indem es Tonhöhenmuster analysiert.

2025-05-30T01:51:32+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritt in der Sprachtechnologie für afrikanische Sprachen

Ein neues Modell verbessert die Sprachdarstellung für afrikanische Sprachen und fördert die Inklusivität in der Technologie.

2025-05-29T21:50:59+00:00 ― 5 min Lesedauer

Ton Melodie-gesteuerte KI-Musikgenerierung

Ein neues Modell verbessert die Musikproduktion mit Melodien und Textbeschreibungen.

2025-05-29T20:30:48+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Sprachmodellen ohne umfangreiche Trainingsdaten

Neue Methode für Sprachmodelle verringert den Bedarf an umfangreichen Daten.

2025-05-29T17:50:26+00:00 ― 6 min Lesedauer

Ton Stimmen verändern: Der Stimmenumwandlungsprozess

Lern, wie Sprachumwandlung funktioniert und welche spannenden Anwendungen es gibt.

2025-05-29T13:49:53+00:00 ― 5 min Lesedauer

Multimedia Multimedia-Qualität mit CCI bewerten

Entdecke, wie CCI die Qualitätseinschätzungen von Multimedia verbessert.

2025-05-29T12:29:42+00:00 ― 7 min Lesedauer

Multimedia Das neue Zeitalter der Lügendetektion

Forscher kombinieren Audio- und visuelle Hinweise, um Lügen genauer zu erkennen.

2025-05-29T11:09:31+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Innovatives Kommunikationssystem für die Katastrophenhilfe

Ein neues sprachbasiertes Netzwerk überbrückt Sprachbarrieren in Notfällen.

2025-05-29T09:49:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der gerätespezifischen Spracherkennung

Lern, wie virtuelle Assistenten Nutzerbefehle besser verstehen.

2025-05-29T05:48:47+00:00 ― 7 min Lesedauer

Ton Die Revolution der Audiountertitelung mit MACE

MACE verbessert Audio-Beschreibungen, indem es Geräusche mit genauen Textbeschreibungen verknüpft.

2025-05-28T17:47:08+00:00 ― 5 min Lesedauer

Ton Vorhersage des Erfolgs von Song-Covern mit Machine Learning

Maschinelles Lernen einsetzen, um die Reaktion des Publikums auf Song-Cover vorherzusagen.

2025-05-28T15:06:46+00:00 ― 7 min Lesedauer

Ton Verbesserung der Audio-Klassifikation mit ADD-Verlust

Ein neuer Ansatz zur Verbesserung der Klassifizierung durch den Verlust der Winkelentfernungverteilung.

2025-05-28T13:46:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der Spracherkennung für Menschen mit Behinderungen

Neue Methoden verbessern Kommunikationsmittel für Menschen mit Sprachschwierigkeiten.

2025-05-28T11:06:13+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Geräuscherkennung in lauten Umgebungen

Neue Methoden mit Sprachmodellen verbessern die Geräuscherkennung bei Hintergrundgeräuschen.

2025-05-27T03:01:49+00:00 ― 6 min Lesedauer

Ton Fish-Speech: Eine neue Ära im Text-to-Speech

Fish-Speech verbessert die Sprachtechnologie für ein natürlicheres Kommunikationserlebnis.

2025-05-27T01:41:38+00:00 ― 6 min Lesedauer

Ton EmoSphere++: Eine neue Ära in emotionalen Maschinen

EmoSphere++ erlaubt Maschinen, Emotionen wie Menschen auszudrücken, was die Interaktionen verbessert.

2025-05-26T05:38:53+00:00 ― 7 min Lesedauer

Ton Neue Methode zur Schätzung von Unterwassergrenzen

U-COTANS verbessert die Erkennung von Unterwassergrenzen mithilfe von Deep-Learning-Techniken.

2025-05-26T02:58:31+00:00 ― 7 min Lesedauer