Ein neues Framework nutzt schwach gelabelte Daten für eine effektive Audio-Trennung.

2025-11-10T11:46:05+00:00 ― 7 min Lesedauer

Neueste Artikel

Ton Fortschritte in der Sprachsynthese mit CoMoSpeech

2025-11-10T05:17:25+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Musik-Trenntechnik

2025-11-10T02:03:05+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der automatischen Spracherkennungstechnologie

2025-11-09T22:48:45+00:00 ― 4 min Lesedauer

Rechnen und Sprache Herausforderungen und Lösungen in der automatischen Spracherkennung

2025-11-09T16:20:05+00:00 ― 6 min Lesedauer

Ton Innovative Ansätze zur Neugestaltung von Musik

2025-11-09T15:31:30+00:00 ― 7 min Lesedauer

Neueste Artikel

Ton Fortschritte in der Sprachsynthese mit TorToise

Ein neues System verbessert die Sprachgenerierung mit hochwertigen Ausgaben.

2025-11-09T14:42:55+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschrittliche Sprechererkennung durch emotionale Einblicke

Ein neues Modell verbessert die Spracherkennung bei emotionaler Sprache.

2025-11-09T09:02:50+00:00 ― 6 min Lesedauer

Ton Vereinfachte FM- und PM-Synthesetechniken

Lerne, wie du FM und PM effektiv im Sounddesign einsetzt.

2025-11-09T08:14:15+00:00 ― 6 min Lesedauer

Ton Neuer selbstüberwachter Ansatz für Spracherkennung

Eine neuartige Methode verbessert Spracherkennungsaufgaben mit weniger gekennzeichneten Daten.

2025-11-09T00:08:25+00:00 ― 6 min Lesedauer

Ton Fortschritte bei Techniken zur Audio-Untertitelung

Dieser Artikel untersucht die neuesten Verbesserungen bei der Erstellung von schriftlichen Audio-Beschreibungen.

2025-11-08T21:42:40+00:00 ― 5 min Lesedauer

Ton Neues Audio-Fingerprinting-System für Fernseher

Effiziente Audioerkennungstechnik, die für stromsparende Fernsehgeräte entwickelt wurde.

2025-11-08T13:36:50+00:00 ― 5 min Lesedauer

Ton Wir stellen SCHmUBERT vor: Ein neues Modell zur Musikgenerierung

SCHmUBERT bietet einen frischen Ansatz, um symbolische Musik mit KI zu erstellen.

2025-11-08T12:48:15+00:00 ― 7 min Lesedauer

Ton Fortschritte bei der Vertrauensschätzung für Spracherkennung

Ein neues Modell verbessert die Vertrauenswerte in Spracherkennungssystemen.

2025-11-08T02:16:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Erkennung dysarthrischer Sprache

Neue Techniken verbessern das Verständnis von dysartherischer Sprache in Kommunikationssystemen.

2025-11-08T01:28:05+00:00 ― 5 min Lesedauer

Ton Fortschritte bei Sprachtrennungstechniken

Ein neuartiger unbeaufsichtigter Ansatz verbessert die Sprachisolierung in Audiomischungen.

2025-11-07T23:50:55+00:00 ― 5 min Lesedauer

Ton ML-SUPERB: Benchmarking mehrsprachiger Sprachmodelle

Ein neuer Massstab zur Bewertung von Machine-Learning-Modellen in der Sprachverständnis über verschiedene Sprachen.

2025-11-07T23:02:20+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung der Telefonklassifizierung in der Spracherkennung

Dieser Artikel behandelt Methoden zur Verbesserung der Telefonklassifizierung mithilfe von Audio-Features.

2025-11-07T21:25:10+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritt in KI: Menschliches Audio-Verständnis

Ein neues Modell verbessert die Audiowahrnehmung und Denkfähigkeiten in KI.

2025-11-07T16:33:40+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Sprachtrennung mit NASS

NASS verbessert die Sprachisolierung in lauten Umgebungen und schlägt dabei die herkömmlichen Methoden.

2025-11-07T15:45:05+00:00 ― 5 min Lesedauer

Ton Aktualisierung der Klangqualitätsmetriken für bessere Genauigkeit

Verbesserung der Soundqualitätsmetriken mit neuen Lautheitsberechnungsmethoden.

2025-11-07T12:30:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritte in der Übersetzung von Sprache in Echtzeit

AlignAtt verbessert die gleichzeitige Sprachübersetzung mit mehr Geschwindigkeit und Qualität.

2025-11-07T11:42:10+00:00 ― 5 min Lesedauer

Ton Privatsphäre und Effizienz in Sprachmodellen ausbalancieren

Eine neue Methode sorgt dafür, dass die Privatsphäre bei der Sprachklassifizierung gewahrt bleibt, ohne die Leistung zu beeinträchtigen.

2025-11-07T10:05:00+00:00 ― 6 min Lesedauer

Ton Die Akzentanpassung von Text-to-Speech geht ganz einfach

Diese Studie zeigt, wie man TTS-Technologie effizient an verschiedene Akzente anpassen kann.

2025-11-07T09:16:25+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Fortschritt sozial interaktiver Agenten mit dem AMII-Modell

Das AMII-Modell verbessert die Kommunikation für sozial interaktive Agenten durch bessere nonverbale Verhaltensweisen.

2025-11-07T08:27:50+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ein neues Modell für die Verarbeitung von multimodalen Daten

Wir stellen ein Modell vor, das verschiedene Datentypen für komplexe Aufgaben integriert.

2025-11-07T05:13:30+00:00 ― 6 min Lesedauer

Ton Fortschritte in der bioakustischen Klangdetektion

Forscher verbessern, wie wir Tiergeräusche automatisch erkennen.

2025-11-07T05:03:27+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Whispers vielseitige Spracherkennungsfähigkeiten

Entdeck, wie Whisper sich an verschiedene Sprachaufgaben anpasst, indem es mit Prompt Engineering arbeitet.

2025-11-07T04:24:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung FastFit: Ein neuer Ansatz zur Sprachsynthese

FastFit verbessert die Sprachgenerierungsgeschwindigkeit, ohne die Klangqualität zu verlieren.

2025-11-07T00:22:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Erkennen von Keywords mit TACos

Eine neue Methode verbessert die Erkennung von Schlüsselwörtern in Audioaufnahmen.

2025-11-06T23:33:25+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Sprecher-Diarization mit AED-EEND

Das AED-EEND-System verbessert die Sprecherdiarisierung, indem es fortschrittliche Techniken für bessere Genauigkeit integriert.

2025-11-06T20:19:05+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Pengi: Audio- und Textverarbeitung verbinden

Pengi vereint Audioverstehen und Textgenerierung in einem einzigen Modell.

2025-11-06T19:30:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte beim Erkennen von Schlüsselwörtern mit kontinuierlichem Lernen

Eine neue Methode verbessert die Keyword-Erkennungssysteme für eine bessere Leistung bei wechselnden Audio.

2025-11-06T17:04:45+00:00 ― 4 min Lesedauer

Ton Fortschritte in der mehrsprachigen Text-to-Speech-Technologie

Ein neues TTS-System verbessert die Sprachgenerierung in mehreren Sprachen mit wenig Daten.

2025-11-06T13:50:25+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Composable Diffusion: Eine neue Grenze in der Inhaltserstellung

CoDi ermöglicht die gleichzeitige Erstellung verschiedener Inhaltsarten aus unterschiedlichen Eingaben.

2025-11-06T13:01:50+00:00 ― 4 min Lesedauer

Ton Fortschritte bei der Klangtrennung mit Deep Learning

Neue Techniken verbessern die Klangtrennung aus Ambisonics-Mischungen für bessere Audioerlebnisse.

2025-11-06T12:13:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der sprachbasierten Gesundheitsüberwachung

Neue Methoden, die Sprache nutzen, zeigen vielversprechende Ansätze zur Identifizierung von Atemmustern und Gesundheitszuständen.

2025-11-06T10:36:05+00:00 ― 5 min Lesedauer

Ton MIDI-Draw: Eine neue Art, Melodien zu erstellen

MIDI-Draw ermöglicht es jedem, Musik zu machen, indem er Melodien intuitiv zeichnet.

2025-11-06T09:47:30+00:00 ― 5 min Lesedauer

Ton Innovative Methoden zur Bewertung der Audioqualität

Neue Techniken, die aus der Bildverarbeitung entlehnt sind, verbessern die Bewertung der Audioqualität.

2025-11-06T08:58:55+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachverarbeitung mit visuellen Daten

Neue Methoden verbessern das maschinelle Verständnis von Sprache durch Audio- und visuelle Hinweise.

2025-11-06T07:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Schlüsselworterkennung in lauten Umgebungen

Neues Modell verbessert die Keyword-Erkennung in schwierigen akustischen Bedingungen.

2025-11-06T04:07:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung des Sprachverständnisses durch Knowledge Distillation

Eine neue Methode verbessert Sprachmodelle, indem sie Wissen von Textmodellen überträgt.

2025-11-06T01:41:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Coswara-Datensatz: Innovatives Tool zur COVID-19-Erkennung

Eine Sammlung von Atemgeräuschen hilft dabei, COVID-19-Fälle zu identifizieren.

2025-11-06T00:12:57+00:00 ― 5 min Lesedauer

Ton ACA-Net: Fortschritt bei Sprachverifikationssystemen

Ein neues Modell verbessert die Sprachverifikation mit effizienten Techniken.

2025-11-05T23:15:55+00:00 ― 5 min Lesedauer

Ton Fortschritte bei Sprechererkennungssystemen für die VoxCeleb-Herausforderung

Ein genauer Blick auf die Sprechererkennungstechniken, die für den Wettbewerb 2022 entwickelt wurden.

2025-11-05T21:38:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung des Verständnisses von Sprache und Emotionen durch KI

Ein neuer Ansatz trainiert KI, um Sprache und Emotionen in lauten Umgebungen besser zu erkennen.

2025-11-05T17:35:50+00:00 ― 6 min Lesedauer

Computerwissenschaften - Ton