Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Rechnen und Sprache Verbesserung der Spracherkennung im Klassenzimmer durch fortgesetztes Prétraining

Verbesserte Spracherkennung für Klassenzimmer mit fortschrittlichen Trainingstechniken verbessert das Lernen.

2025-08-05T19:06:15+00:00 ― 7 min Lesedauer

Maschinelles Lernen Adressierung von Halluzinationen in KI-Modellen

Verstehen und Minderung von Halluzinationen bei KI für zuverlässige Leistung.

2025-08-05T17:29:05+00:00 ― 8 min Lesedauer

Ton Neue Methode nutzt Grafiken zur Musik Analyse

Ein neuer Ansatz nutzt graphbasierte neuronale Netze für eine effiziente Analyse von Musikdaten.

2025-08-05T15:51:55+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Audio-Text-Abgleichtechniken

Neue Methoden verbessern die Verbindungen zwischen Audioclips und Textbeschreibungen.

2025-08-05T14:14:45+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Gesangs-Stimmen-Transkription mit dem ROSVOT-Modell

ROSVOT verbessert die Genauigkeit beim Transkribieren von Gesangsstimmen, selbst in lauten Umgebungen.

2025-08-05T10:11:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Die Verbesserung der Sprachklarheit in lauten Umgebungen

Neue Techniken verbessern die Sprachrekonstruktion in herausfordernden Umgebungen mit begrenzten Daten.

2025-08-05T02:06:00+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Ein neuer Ansatz zur Generierung von audiovisuellen Inhalten

Ein Modell vorstellen, das synchronen Audio und Video mit gemischten Geräuschpegeln erzeugt.

2025-08-04T14:45:50+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Fortschrittliche Roboterkommunikation: Lösung für überlappende Sprache

Ein neues System verbessert die Interaktionen von Robotern, indem es überlappende Sprache herausfiltert.

2025-08-04T13:57:15+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ein einfaches Modell für audio-visuelle Generierung

Dieser Artikel bespricht ein neues einfaches Modell, um Audio aus Bildern zu generieren und umgekehrt.

2025-08-04T09:05:45+00:00 ― 5 min Lesedauer

Maschinelles Lernen Fortschritte bei automatischer Spracherkennung mit Denoising-Sprachmodellen

Denoising-Sprachmodelle verbessern die Fehlerkorrektur in Sprach-erkennungssystemen mit synthetischen Daten.

2025-08-03T22:34:10+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachverbesserung mit VPIDM

Das neue Modell VPIDM verbessert die Sprachverständlichkeit in lauten Umgebungen.

2025-08-03T16:54:05+00:00 ― 6 min Lesedauer

Ton NeRAF: Sound und Bilder für echten Realismus zusammenbringen

NeRAF erstellt synchronisierten Sound und Visuals für immersive Erlebnisse in verschiedenen Bereichen.

2025-08-03T07:11:05+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Innovativer Ansatz zur gemeinsamen Audio-Video-Generierung

Eine neue Methode verbessert die Audio-Video-Ausrichtung mit vortrainierten Modellen.

2025-08-03T04:45:20+00:00 ― 6 min Lesedauer

Maschinelles Lernen Zipper: Ein neuer Ansatz für multimodale KI

Zipper kombiniert verschiedene Datentypen, um smartere KI-Modelle zu erstellen.

2025-08-03T03:08:10+00:00 ― 7 min Lesedauer

Ton Verbesserung der Überwachung von bolzengeschlossenen Verbindungen mit Deep Learning

Tiefe Lernverfahren zur Verbesserung der akustischen Emissionsüberwachung von geschraubten Verbindungen.

2025-08-02T21:28:05+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Klang und Bewegung in der Musik zusammenbringen

Ein neuer Ansatz, um Singen und Tanzen durch fortschrittliche Computertechniken zu kombinieren.

2025-08-02T20:39:30+00:00 ― 6 min Lesedauer

Ton Fortschritte bei Sprach-Inpainting-Techniken

Lern, wie Speech Inpainting die Audioqualität in verschiedenen Bereichen wiederherstellt.

2025-08-02T18:13:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Crosstalk reduzieren für klareres Sprechen

Ein neues System verbessert die Sprachklarheit in Umgebungen mit mehreren Sprechern.

2025-08-02T14:10:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-Emotions-Erkennungstechnologie

Neue Methoden verbessern, wie Maschinen Emotionen in der Sprache erkennen.

2025-08-02T13:22:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierung mit Frieren

Das Frieren-Modell verbessert die Audioqualität und den Sync für Videos.

2025-08-02T10:07:55+00:00 ― 6 min Lesedauer

Ton Innovative Audio-Synthese aus Textbeschreibungen

Eine neue Methode erzeugt einzigartige Klänge aus Text mit einem einfachen Synthesizer.

2025-08-02T08:30:45+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritte in der Sprachübersetzungstechnologie

Neue Methode verbessert die Sprachübersetzung in lauten Umgebungen und bewahrt gleichzeitig die Ausdrucksstärke.

2025-08-01T13:53:20+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Raga-Identifikation mit neuem Datensatz

Ein neuer Datensatz verbessert das Studium der Raga-Identifikation in der indischen Musik.

2025-08-01T12:16:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Seed-TTS erstellt lebensechte Sprache aus Text für verschiedene Anwendungen.

2025-08-01T10:39:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-zu-Gesang-Technologie

Neue Methode verbessert die Umwandlung von Sprache in Gesang mithilfe von selbstüberwachtem Lernen.

2025-08-01T09:50:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache StreamSpeech: Eine neue Art, Sprache zu übersetzen

StreamSpeech verbessert die Echtzeit-Sprachübersetzung in Bezug auf Effizienz und Qualität.

2025-08-01T03:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Einführung des 4D-Modells in der Spracherkennung

Ein neues Modell verbessert die Spracherkennung mit mehreren Dekodierungs-Methoden.

2025-08-01T01:44:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der arabischen Spracherkennung durch Wissensdistillation

Eine Studie zur Verbesserung der automatischen Spracherkennung für arabische Dialekte mit effizienten Modelltechniken.

2025-07-31T23:18:50+00:00 ― 5 min Lesedauer

Rechnen und Sprache BLSP-Emo: Ein neuer Schritt in empathischer KI

Wir stellen BLSP-Emo vor, ein Modell, das Sprache und Emotionen versteht, für bessere Interaktionen.

2025-07-31T21:41:40+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Dateninterpretation neu betrachten: Studie zu Klang und Bildern

Eine aktuelle Studie bestätigt wichtige Ergebnisse zur Dateninterpretation mit Klang und Bildern.

2025-07-31T20:04:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Text und Bilder für die Musikgenerierung kombinieren

Neues Modell generiert Musik mit Hilfe von Text und visuellen Informationen.

2025-07-31T12:47:15+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung DenseAV: Klänge und Bilder verbinden

Ein System, das Geräusche mit visuellen Eindrücken verbindet und dadurch das Verständnis von Maschinen verbessert.

2025-07-31T10:21:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachsynthese mit ARDiT

Das neue Modell ARDiT verbessert die Text-zu-Sprache-Synthese und die Sprachbearbeitung.

2025-07-31T07:55:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Sprachtrennungstechniken

Neue Methoden verbessern die Klarheit beim Isolieren von Stimmen aus Audio-Mischungen.

2025-07-31T04:41:25+00:00 ― 4 min Lesedauer

Rechnen und Sprache Verbesserung des AI-Verstehens durch kontextuelles Parsing

Wir stellen SPICE vor, eine Aufgabe, um AI-Interaktionen mit kontextuellen Informationen zu verbessern.

2025-07-30T23:49:55+00:00 ― 8 min Lesedauer

Ton Fortschritte in der kreuzmodalen Musikverarbeitung

Die Forschung stellt das MOSA-Dataset vor, das das Verständnis der visuellen und auditiven Aspekte von Musik verbessert.

2025-07-30T23:01:20+00:00 ― 7 min Lesedauer

Rechnen und Sprache Vorstellung von mHuBERT-147: Ein kompaktes Sprachmodell

mHuBERT-147 verarbeitet Sprache effizient in mehreren Sprachen.

2025-07-30T22:12:45+00:00 ― 5 min Lesedauer

Ton Audio-Untertitelung durch innovative Methoden transformieren

Ein neuer Ansatz für Audio-Beschriftung verringert die Abhängigkeit von gepaarten Daten.

2025-07-30T21:24:10+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Emotionserkennung durch Sprache

Neue Methoden verbessern, wie Maschinen Emotionen in menschlicher Sprache erkennen.

2025-07-30T18:09:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Zielsprachendiarisierungstechnologie

Ein Blick auf neue Methoden zum Verständnis von überlappender Sprache während Gesprächen.

2025-07-30T14:06:55+00:00 ― 8 min Lesedauer