Elektrotechnik und Systemtechnik - Audio- und Sprachverarbeitung

RSS

Audio- und Sprachverarbeitung Verbesserung synthetischer Stimmen durch Audio-Enhancement

Ein neuer Ansatz zur Verbesserung der Audioqualität für die Erstellung synthetischer Stimmen.

Nov 7, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Erkennung von Schallevents mit Multi-Task-Lernen

Neue Techniken verbessern die Effizienz der Spracherkennung und senken die Kosten für die Beschriftung.

Nov 7, 2025 ― 6 min Lesedauer

Ton Aktualisierung der Klangqualitätsmetriken für bessere Genauigkeit

Verbesserung der Soundqualitätsmetriken mit neuen Lautheitsberechnungsmethoden.

Nov 7, 2025 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte in der Übersetzung von Sprache in Echtzeit

AlignAtt verbessert die gleichzeitige Sprachübersetzung mit mehr Geschwindigkeit und Qualität.

Nov 7, 2025 ― 5 min Lesedauer

Ton Privatsphäre und Effizienz in Sprachmodellen ausbalancieren

Eine neue Methode sorgt dafür, dass die Privatsphäre bei der Sprachklassifizierung gewahrt bleibt, ohne die Leistung zu beeinträchtigen.

Nov 7, 2025 ― 6 min Lesedauer

Ton Die Akzentanpassung von Text-to-Speech geht ganz einfach

Diese Studie zeigt, wie man TTS-Technologie effizient an verschiedene Akzente anpassen kann.

Nov 7, 2025 ― 5 min Lesedauer

Mensch-Computer-Interaktion Fortschritt sozial interaktiver Agenten mit dem AMII-Modell

Das AMII-Modell verbessert die Kommunikation für sozial interaktive Agenten durch bessere nonverbale Verhaltensweisen.

Nov 7, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Parkinson-Erkennung mit föderiertem Lernen

Federated Learning nutzen, um die Sprachanalyse zur Parkinson-Diagnose über verschiedene Sprachen zu verbessern.

Nov 7, 2025 ― 6 min Lesedauer

Rechnen und Sprache Identifizierung arabischer Dialekte mit modernen Techniken

Diese Studie konzentriert sich darauf, arabische Dialekte mit fortschrittlichen Methoden und begrenzten Daten zu erkennen.

Nov 7, 2025 ― 5 min Lesedauer

Computer Vision und Mustererkennung Ein neues Modell für die Verarbeitung von multimodalen Daten

Wir stellen ein Modell vor, das verschiedene Datentypen für komplexe Aufgaben integriert.

Nov 7, 2025 ― 6 min Lesedauer

Ton Fortschritte in der bioakustischen Klangdetektion

Forscher verbessern, wie wir Tiergeräusche automatisch erkennen.

Nov 7, 2025 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Whispers vielseitige Spracherkennungsfähigkeiten

Entdeck, wie Whisper sich an verschiedene Sprachaufgaben anpasst, indem es mit Prompt Engineering arbeitet.

Nov 7, 2025 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung der Spracherkennung für Minderheitensprachen

Diese Studie untersucht Möglichkeiten, ASR für ressourcenarme Sprachen mit Datentechniken zu verbessern.

Nov 7, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung FastFit: Ein neuer Ansatz zur Sprachsynthese

FastFit verbessert die Sprachgenerierungsgeschwindigkeit, ohne die Klangqualität zu verlieren.

Nov 7, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Erkennen von Keywords mit TACos

Eine neue Methode verbessert die Erkennung von Schlüsselwörtern in Audioaufnahmen.

Nov 6, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Eine neue Methode zur Messung der Zungenbewegung beim Sprechen

Diese Studie stellt eine Methode vor, um Zungenbewegungen beim Sprechen mithilfe von Röntgendaten besser zu messen.

Nov 6, 2025 ― 6 min Lesedauer

Ton Fortschritte in der Sprecher-Diarization mit AED-EEND

Das AED-EEND-System verbessert die Sprecherdiarisierung, indem es fortschrittliche Techniken für bessere Genauigkeit integriert.

Nov 6, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Pengi: Audio- und Textverarbeitung verbinden

Pengi vereint Audioverstehen und Textgenerierung in einem einzigen Modell.

Nov 6, 2025 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Latenz beim Spracherkennen mit verzögerungsbestraftem CTC reduzieren

Ein neuer Ansatz zielt darauf ab, Verzögerungen in Spracherkennungssystemen zu minimieren, während die Genauigkeit erhalten bleibt.

Nov 6, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Erkennen von Schlüsselwörtern mit kontinuierlichem Lernen

Eine neue Methode verbessert die Keyword-Erkennungssysteme für eine bessere Leistung bei wechselnden Audio.

Nov 6, 2025 ― 4 min Lesedauer

Ton Fortschritte in der mehrsprachigen Text-to-Speech-Technologie

Ein neues TTS-System verbessert die Sprachgenerierung in mehreren Sprachen mit wenig Daten.

Nov 6, 2025 ― 6 min Lesedauer

Computer Vision und Mustererkennung Composable Diffusion: Eine neue Grenze in der Inhaltserstellung

CoDi ermöglicht die gleichzeitige Erstellung verschiedener Inhaltsarten aus unterschiedlichen Eingaben.

Nov 6, 2025 ― 4 min Lesedauer

Ton Fortschritte bei der Klangtrennung mit Deep Learning

Neue Techniken verbessern die Klangtrennung aus Ambisonics-Mischungen für bessere Audioerlebnisse.

Nov 6, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Kompression von Sprachmodellen

Ein neues Verfahren verbessert Sprachmodelle und verringert gleichzeitig den Ressourcenbedarf.

Nov 6, 2025 ― 6 min Lesedauer

Ton Fortschritte in der sprachbasierten Gesundheitsüberwachung

Neue Methoden, die Sprache nutzen, zeigen vielversprechende Ansätze zur Identifizierung von Atemmustern und Gesundheitszuständen.

Nov 6, 2025 ― 5 min Lesedauer

Ton MIDI-Draw: Eine neue Art, Melodien zu erstellen

MIDI-Draw ermöglicht es jedem, Musik zu machen, indem er Melodien intuitiv zeichnet.

Nov 6, 2025 ― 5 min Lesedauer

Ton Innovative Methoden zur Bewertung der Audioqualität

Neue Techniken, die aus der Bildverarbeitung entlehnt sind, verbessern die Bewertung der Audioqualität.

Nov 6, 2025 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung verbessern: Neue Techniken für Geschwindigkeit und Genauigkeit

Neue Methoden verbessern die Effizienz von Spracherkennungssystemen, ohne die Genauigkeit zu verlieren.

Nov 6, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachverarbeitung mit visuellen Daten

Neue Methoden verbessern das maschinelle Verständnis von Sprache durch Audio- und visuelle Hinweise.

Nov 6, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Schlüsselworterkennung in lauten Umgebungen

Neues Modell verbessert die Keyword-Erkennung in schwierigen akustischen Bedingungen.

Nov 6, 2025 ― 6 min Lesedauer

Rechnen und Sprache i-Code V2: Ein neues Modell für die Verarbeitung gemischter Daten

i-Code V2 integriert Vision, Sprache und Sprache für bessere KI-Antworten.

Nov 6, 2025 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung des Sprachverständnisses durch Knowledge Distillation

Eine neue Methode verbessert Sprachmodelle, indem sie Wissen von Textmodellen überträgt.

Nov 6, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Coswara-Datensatz: Innovatives Tool zur COVID-19-Erkennung

Eine Sammlung von Atemgeräuschen hilft dabei, COVID-19-Fälle zu identifizieren.

Nov 6, 2025 ― 5 min Lesedauer

Ton ACA-Net: Fortschritt bei Sprachverifikationssystemen

Ein neues Modell verbessert die Sprachverifikation mit effizienten Techniken.

Nov 5, 2025 ― 5 min Lesedauer

Ton Fortschritte bei Sprechererkennungssystemen für die VoxCeleb-Herausforderung

Ein genauer Blick auf die Sprechererkennungstechniken, die für den Wettbewerb 2022 entwickelt wurden.

Nov 5, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung des Verständnisses von Sprache und Emotionen durch KI

Ein neuer Ansatz trainiert KI, um Sprache und Emotionen in lauten Umgebungen besser zu erkennen.

Nov 5, 2025 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Innovative Audio-Analyse für Familieninteraktion

Neue Methoden zielen darauf ab, das Verständnis für Familiendynamik und die psychische Gesundheit von Kindern zu verbessern.

Nov 5, 2025 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Lautsprecherschutzsystemen

Neue Deep-Learning-Methoden verbessern die Vorhersagen zur Bewegung des Lautsprechers Diaphragmas.

Nov 5, 2025 ― 5 min Lesedauer

Rechnen und Sprache Die Nutzung von ciwGAN für phonologische Analyse

Erforschen, wie ciwGAN phonetische Merkmale wie Nasalität lernen und darstellen kann.

Nov 5, 2025 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennung mit MH-SSM

Ein neues Modell verbessert die Effizienz und Genauigkeit der Spracherkennung.

Nov 5, 2025 ― 5 min Lesedauer