Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Audio- und Sprachverarbeitung Fortschritte bei der automatischen Spracherkennung mit dynamischem TTA

Neue Methoden verbessern die Spracherkennung in lauten Umgebungen mit adaptiven Techniken.

2025-07-29T13:49:25+00:00 ― 7 min Lesedauer

Ton SPEAR: Ein neuer Ansatz zur Klanganalyse

SPEAR sagt das Klangverhalten in 3D-Räumen voraus, indem es nur minimal Daten sammelt.

2025-07-29T10:35:05+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der Übersetzung von Code-Switching-Sprache

Eine neue Methode verbessert die Übersetzung von gemischter Sprache in Englisch.

2025-07-29T09:46:30+00:00 ― 5 min Lesedauer

Ton Verbesserung der Sprecherverifikation in der Funkkommunikation

Eine neue Methode verbessert die Genauigkeit der Sprecherverifizierung in schwierigen Funkumgebungen.

2025-07-29T08:57:55+00:00 ― 7 min Lesedauer

Ton Verbesserung von Hintertürangriffen in der Spracherkennung

Neue Methode zielt auf Rhythmusänderungen für heimliche Sprachangriffe ab.

2025-07-29T08:09:20+00:00 ― 6 min Lesedauer

Ton GAMA: Ein neues Modell fürs Klangverständnis

GAMA verbessert die Audioverarbeitung, indem es Klang- und Sprachkenntnisse zusammenführt.

2025-07-29T04:55:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung AV-CrossNet: Verbesserung der Spracherkennung bei Geräuschen

Ein neues System hilft dabei, Sprache von Geräuschen zu trennen, damit die Kommunikation klarer wird.

2025-07-29T03:17:50+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung GigaSpeech 2: Ein neues Dataset für Spracherkennung

GigaSpeech 2 bietet ein riesiges Dataset für Sprachen mit wenig Ressourcen, um die Spracherkennung zu verbessern.

2025-07-29T02:29:15+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Die Revolution im Text-to-Speech mit DiTTo-TTS

Ein neues Modell verbessert die Text-zu-Sprache-Technologie mit Effizienz und Anpassungsfähigkeit.

2025-07-29T01:40:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Neuer Rahmen für klare Sprachproduktion

Eine neuartige Methode zur Optimierung der Sprachanalyse und -synthese unter Verwendung von Bewegungen des Sprachtrakt.

2025-07-28T20:49:10+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Die Auswirkungen von Gesten in virtuellen Erklärungen

Diese Studie untersucht, wie Gesten das Lernen von virtuellen Agenten beeinflussen.

2025-07-28T19:12:00+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung DExter: Ein neuer Ansatz für ausdrucksstarke Klavieraufführungen

DExter nutzt KI, um aus geschriebenen Noten ausdrucksstarke Klaviermusik zu schaffen.

2025-07-28T10:17:35+00:00 ― 6 min Lesedauer

Ton Echtzeit-Sprecher-Diarisation: Ein Überblick

Erfahre mehr über Online-Sprecherdiarisierung und ihre Bedeutung in verschiedenen Anwendungen.

2025-07-28T06:14:40+00:00 ― 6 min Lesedauer

Ton Evaluierung von diskreten Audio-Token für Sprachaufgaben

Neues Benchmark-Tool bewertet diskrete Audio-Tokens für verschiedene Sprachverarbeitungsaufgaben.

2025-07-28T04:37:30+00:00 ― 9 min Lesedauer

Ton Fortschritte in der strukturierten Musikgenerierung mit SING

Eine neue Methode zur Musikgenerierung mit Selbstähnlichkeitsmatrizen und Aufmerksamkeitssystemen.

2025-07-28T01:23:10+00:00 ― 8 min Lesedauer

Ton Fortschritte im Audio-Modellieren mit GANs

Neue Techniken verbessern das Modeling von Gitarrenverstärkern mit ungepaarten Daten und GANs.

2025-07-27T22:08:50+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der sprachübergreifenden Sprachumwandlung

Eine neue Methode verbessert die Sprachumwandlung zwischen Sprachen, während die Eigenschaften des Sprechers erhalten bleiben.

2025-07-27T15:40:10+00:00 ― 4 min Lesedauer

Ton Analyse von Audio-Modellen mit Netzwerk-Dissektion

Eine neue Methode, um zu verstehen, wie Audiomodelle Vorhersagen treffen.

2025-07-27T12:25:50+00:00 ― 5 min Lesedauer

Ton Fortschritte bei der Sprachumwandlung mit räumlichem Bewusstsein

Einführung der räumlichen Sprachumwandlung zur Verbesserung der Audio-Realität und Immersion.

2025-07-27T01:54:15+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung WavRx: Ein neues Modell für sprachbasierte Gesundheitsdiagnosen

WavRx analysiert Sprache für die Gesundheit und schützt dabei die Privatsphäre, wobei vielversprechende diagnostische Ergebnisse erzielt werden.

2025-07-26T21:51:20+00:00 ― 8 min Lesedauer

Rechnen und Sprache Analyse von Sprache zur Bewertung des Suizidrisikos

Forschung untersucht, wie Sprachanalyse das Suizidrisiko vorhersagen kann, wobei Geschlechterunterschiede berücksichtigt werden.

2025-07-26T13:45:30+00:00 ― 5 min Lesedauer

Ton Ein neues Werkzeug zur Musikvisualisierung

Dieses Papier präsentiert ein System zur Erstellung von visuellen Darstellungen, die auf Musik reagieren.

2025-07-26T10:31:10+00:00 ― 8 min Lesedauer

Robotik Lernen mit Sound: Eine neue Ära für Roboter

Ein neues System hilft Robotern, Aufgaben zu erlernen, indem es Audio von realen Demonstrationen verwendet.

2025-07-26T09:42:35+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Geräuscherkennung für 2024

Neue Methoden verbessern die Genauigkeit beim Erkennen von überlappenden Geräuschen aus verschiedenen Audioquellen.

2025-07-26T07:16:50+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der Sprachfehlerkorrektur in ASR-Systemen

Eine neue Methode kombiniert akustische Merkmale und Vertrauenswerte für bessere Fehlerkorrektur.

2025-07-25T20:45:15+00:00 ― 5 min Lesedauer

Kryptographie und Sicherheit Die Stimmen im Zeitalter der Deepfakes schützen

SecureSpectra bietet eine neue Möglichkeit, die Audioidentität gegen Deepfake-Bedrohungen zu schützen.

2025-07-25T16:42:20+00:00 ― 6 min Lesedauer

Maschinelles Lernen Fortschritte bei der Vorhersage von akustischer Streuung mit PGI-DeepONet

Kombination von Physik und Geometrie für verbesserte Vorhersagen zur akustischen Streuung.

2025-07-25T15:54:09+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte bei Echtzeit-Sprachübersetzungssystemen

Ein neues System für genaue und schnelle Sprachübersetzung in mehrere Sprachen.

2025-07-25T15:05:10+00:00 ― 6 min Lesedauer

Ton Neue Methode zur Sprachsynthese für die Stimmenkreation

Eine einfache Methode, um Stimmen zu erstellen und Emotionen in der Sprachsynthese zu steuern.

2025-07-25T14:16:35+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Echtzeit-Musikquellentrennung

MMDenseNet verbessern für schnelle und effiziente Musiktrennung.

2025-07-25T12:39:25+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Neue Methode für klareren Sound in lauten Umgebungen

Ein neuer Ansatz zur Verbesserung der Klangklarheit mit fortschrittlichen Deep-Learning-Techniken.

2025-07-25T11:02:15+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprechererkennung mit Audio- und visuellen Daten

Ein System kombiniert Audio und Video, um die Erkennungsgenauigkeit von Sprechern zu verbessern.

2025-07-25T10:13:40+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte bei Sprachdialogsystemen

Eine neue Methode verbessert den Maschinendialog durch Pseudo-Stereo-Daten.

2025-07-25T08:36:30+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der chinesischen Spracherkennung durch Pinyin-Regulierung

Diese Studie präsentiert einen Datensatz und eine Methode, um die Genauigkeit der chinesischen ASR mithilfe von Pinyin zu verbessern.

2025-07-25T07:47:55+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Lautsprechertechnik und Klangkontrolle

Innovative Techniken verbessern das Lautsprecherdesign und die Klangrichtung.

2025-07-25T06:10:45+00:00 ― 4 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei multimodalen Sprachmodellen

Ein neues Modell kombiniert Audio- und visuelle Daten für ein besseres Verständnis.

2025-07-25T05:22:10+00:00 ― 6 min Lesedauer

Ton Techniken zur Erkennung von Deepfake-Audio im Detail

Diese Studie konzentriert sich darauf, die Erkennung von Deepfake-Audio mit fortschrittlichen Methoden zu verbessern.

2025-07-25T02:56:25+00:00 ― 5 min Lesedauer

Ton Innovative Ansätze zur Musikschaffung mit Technologie

Visuelle Schnittstellen und Modelle nutzen, um die Musikgenerierung zu verbessern.

2025-07-25T00:30:40+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Innovativer Ansatz zur automatischen Generierung von Soundeffekten

Ein neues Framework für die Erstellung synchronisierter Soundeffekte in Videos.

2025-07-24T23:42:05+00:00 ― 6 min Lesedauer

Ton Verbesserung der Sprecherdiarisierung mit Sprecher-Embeddings

Eine Studie zur Verbesserung der Audiosegmentierung durch die Integration von Sprecher-Embeddings.

2025-07-24T21:16:20+00:00 ― 5 min Lesedauer