Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Audio- und Sprachverarbeitung Die Herausforderung von Audio-Deepfakes angehen

Diese Studie untersucht die Effektivität von mehrsprachigen Modellen beim Erkennen von Audio-Deepfakes.

2025-08-14T00:40:35+00:00 ― 6 min Lesedauer

Ton Die Einhaltung in generativen Musikmodellen messen

Ein neuer Ansatz, um zu bewerten, wie gut Musik auf Audioaufforderungen reagiert.

2025-08-13T23:03:25+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Einführung des 360+x-Datensatzes für verbesserte Szenenverständnis

Ein neuer Datensatz verbessert, wie Roboter reale Umgebungen interpretieren.

2025-08-13T18:11:55+00:00 ― 7 min Lesedauer

Ton Neuer Ansatz zur Audio-Trennung mit Sprache

Diese Methode verbessert die Audio-Trennung, indem sie Sprachbeschreibungen mit Klanganalysen kombiniert.

2025-08-13T14:57:35+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführung von UniAV: Ein einheitlicher Ansatz zur Video-Lokalisierung

UniAV kombiniert Aktionslokalisierung, Geräuscherkennung und audio-visuelle Ereignislokalisierung für ein besseres Videoverstehen.

2025-08-13T10:06:05+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung CLaM-TTS: Fortschritt in der Text-zu-Sprache-Technologie

CLaM-TTS verbessert die Sprachsynthese mit fortschrittlichen Techniken für mehr Effizienz und Qualität.

2025-08-13T08:28:55+00:00 ― 6 min Lesedauer

Soziale und Informationsnetzwerke Musik durch Grafiken analysieren

Grafiken ermöglichen neue Einblicke in die Struktur und Beziehungen von Musik.

2025-08-13T03:09:57+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Text-to-Speech mit RALL-E verbessern

RALL-E verbessert die Text-zu-Sprache-Synthese für klarere, natürlichere Sprache.

2025-08-13T01:11:40+00:00 ― 5 min Lesedauer

Ton MuPT: Musikgenerierung mit ABC-Notation vorantreiben

MuPT nutzt die ABC-Notation für eine effektive Musikgenerierung mit KI.

2025-08-12T09:00:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Audio-Lernen voranbringen mit M2D und M2D-X

Neue Methoden verbessern die Audio-Repräsentation durch selbstüberwachtes Lernen.

2025-08-12T07:22:50+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführung von PEAVS: Eine neue Methode zur Messung der Audio-Visual-Synchronisation

PEAVS analysiert, wie gut Audio und Video zusammenarbeiten, um das Zuschauererlebnis zu verbessern.

2025-08-12T03:19:55+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Schallfeldrekonstruktion mit KI

Eine Methode, die KI nutzt, verbessert die Klangdarstellung in verschiedenen Umgebungen.

2025-08-12T00:54:10+00:00 ― 7 min Lesedauer

Klassische Physik Verstehen von spektralen Momenten in der elektromagnetischen Prüfung

Erforsche die Rolle von Spektralmomenten bei Tests in Nachhallkammern und den Einfluss von Geräuschen.

2025-08-12T00:28:33+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Effizientes Echtzeit Klavier-Transkriptionsmodell

Ein neues System für genaue und leichte Echtzeit-Piano-Transkription.

2025-08-12T00:05:35+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Any2Point: Brücke für 3D-Verständnis in KI-Modellen

Ein neues Framework verbessert das Verständnis von KI für 3D-Räume.

2025-08-11T19:14:05+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Technologie zur Bearbeitung von Sprachattributen

Neues Modell ermöglicht präzise Kontrolle über die Stimmqualitäten, während der Inhalt erhalten bleibt.

2025-08-11T18:25:30+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Die Bewertung von Sprachverarbeitungsmodellen mit SUPERB

Ein neues Framework zur Bewertung von Grundmodellen bei Sprachaufgaben.

2025-08-11T09:31:05+00:00 ― 8 min Lesedauer

Ton Fortschritte bei KI in der Text-zu-Audio-Generierung

Eine Studie zur Verbesserung von Audioausgaben aus Textanfragen durch Präferenzoptimierung.

2025-08-11T07:05:20+00:00 ― 7 min Lesedauer

Ton Fortschritte in der automatisierten Musikgeneration mit KI

Die neuesten Entwicklungen bei KI-Tools zur Musikproduktion erkunden.

2025-08-10T16:30:50+00:00 ― 5 min Lesedauer

Signalverarbeitung Kombination von aktiver und passiver akustischer Wahrnehmung in der Robotik

Forschung untersucht, wie man Klangtechniken zusammenführen kann, um die Navigation und Kartierung von Robotern zu verbessern.

2025-08-10T13:16:30+00:00 ― 9 min Lesedauer

Ton Verbesserung der Musik-Tags mit musikalischen Wort-Embeddings

Ein neuer Ansatz verbessert das Tagging und die Suche von Musik, indem er allgemeine Sprache mit Musikausdrücken kombiniert.

2025-08-10T06:47:50+00:00 ― 10 min Lesedauer

Audio- und Sprachverarbeitung FlashSpeech: Ein Sprung in die Sprachsynthese

FlashSpeech bietet schnelle, hochwertige Sprachsyntheselösungen an.

2025-08-10T03:33:30+00:00 ― 7 min Lesedauer

Ton Fortschritte bei der Deepfake-Erkennung mit dem RAD-Framework

Eine neue Methode verbessert die Erkennung von Audio-Deepfakes mithilfe ähnlicher Referenzproben.

2025-08-10T01:07:45+00:00 ― 6 min Lesedauer

Ton Die Messung von Virtuosität in der E-Gitarren-Performance

Diese Studie analysiert Tonsignale, um die Virtuosität von E-Gitarristen zu messen.

2025-08-09T18:39:05+00:00 ― 5 min Lesedauer

Ton Navigieren von Schwächen in der Spracherkennung von Emotionen

Diese Studie untersucht die Schwächen von SER-Modellen gegen adversarielle Angriffe über verschiedene Sprachen hinweg.

2025-08-08T21:35:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der audio-visuellen Sprecherextraktion mit SEANet

SEANet verbessert die Sprechertrennung, indem es das Geräusch in der Audiobearbeitung reduziert.

2025-08-08T20:47:20+00:00 ― 7 min Lesedauer

Ton SemantiCodec: Der nächste Schritt in der Audiotechnologie

Ein neuer Audio-Codec, der hochwertige Kompression und reichhaltigen semantischen Inhalt bietet.

2025-08-08T19:10:10+00:00 ― 6 min Lesedauer

Ton Neues Tool analysiert Audio- und Videoinhalte

Ein Werkzeug, das Audio- und Videoanalyse kombiniert, um Ereignisse zu identifizieren.

2025-08-08T12:41:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Messung der Schallabsorption: Eine neue Methode

Eine Methode, um zu messen, wie Materialien Schall effektiv absorbieren.

2025-08-08T10:46:48+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der ASR: Ein neuer Lernansatz

Eine zweistufige aktive Lernmethode verbessert die Spracherkennungsgenauigkeit mit weniger Daten.

2025-08-08T02:09:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Hörgeräte-Technologie mit Deep Learning

Neue Methoden verbessern die Sprachverständlichkeit in Hörgeräten durch Deep-Learning-Techniken.

2025-08-08T01:21:20+00:00 ― 7 min Lesedauer

Ton Schallquellenlokalisierung: Techniken und Anwendungen

Lerne etwas über Techniken zur Schalllokalisierung und ihre Anwendungen in verschiedenen Bereichen.

2025-08-07T23:44:10+00:00 ― 4 min Lesedauer

Ton Die Bekämpfung der Zunahme von Deepfake-Audioerkennung

Neue Datensätze und Methoden verbessern die Erkennung von ALM-generierten Audio-Deepfakes.

2025-08-07T06:43:55+00:00 ― 6 min Lesedauer

Rechnen und Sprache Bewertung von ASR-Systemen für stotternde Sprache

Diese Studie bewertet die Leistung von ASR-Systemen bei Personen, die stottern.

2025-08-07T04:18:10+00:00 ― 8 min Lesedauer

Rechnen und Sprache Neue Angriffsmethode macht ASR-Systeme sprachlos

Ein universeller Audio-Clip kann fortgeschrittene ASR-Modelle wie Whisper stummschalten.

2025-08-07T03:29:35+00:00 ― 6 min Lesedauer

Ton Neues Gerät verbessert Gespräche in lauten Umgebungen

Ein Gerät hilft, sich in vollen Räumen auf bestimmte Stimmen zu konzentrieren.

2025-08-06T19:23:45+00:00 ― 7 min Lesedauer

Ton Fortschritte bei der Audiobearbeitung mit Diffusionsmodellen

Eine neue Methode verbessert die Audio-Bearbeitung mit Diffusionsmodellen für präzise Änderungen.

2025-08-06T16:09:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Integration von Audio- und Sprachmodellen: SpeechVerse

SpeechVerse überbrückt das Verständnis von Audio und Sprachverarbeitung für eine bessere Interaktion zwischen Mensch und Computer.

2025-08-06T06:26:25+00:00 ― 6 min Lesedauer

Ton Bewertung von Vorurteilen in Sprachassistententechnologie

Neuer Datensatz zeigt Leistungsunterschiede zwischen unterschiedlichen demografischen Gruppen bei der Nutzung von Sprachassistenten.

2025-08-06T02:23:30+00:00 ― 7 min Lesedauer

Rechnen und Sprache Untersuchung der Sicherheit von Sprachmodellen

Dieser Artikel untersucht Schwachstellen in Sprachmodellen und Möglichkeiten, ihre Sicherheit zu verbessern.

2025-08-05T23:09:10+00:00 ― 6 min Lesedauer