Neue Methoden verbessern die Zugänglichkeit und Genauigkeit bei Audiountertitelung.

2025-08-21T14:03:15+00:00 ― 6 min Lesedauer

Ton Erkennung von Deepfake-Audioanrufen: Ein neuer Ansatz

Lern, wie du gefälschte Audioanrufe mit innovativen Challenge-Response-Techniken erkennst.

2025-08-21T07:34:35+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung CustomListener: Eine neue Ära in virtuellen Interaktionen

CustomListener erstellt realistische Avatare, die dynamisch auf Gespräche reagieren.

2025-08-21T05:08:50+00:00 ― 7 min Lesedauer

Ton Fortschritte bei automatischen Sprecherdiarisierungstechniken

Die Forschung zeigt, dass das Timing wichtiger ist als bestimmte Merkmale der Sprecher in Diarisierungsmodellen.

2025-08-21T00:17:20+00:00 ― 6 min Lesedauer

Multimedia Fortschritte in der Lippen-zu-Sprache-Technologie

Neue Methode verbessert die Sprachsynthese für Menschen, die nicht sprechen können.

2025-08-20T20:14:25+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Fortschritte bei stillen Sprachschnittstellen

Ein Blick auf MONA, ein System, das die stille Sprachkommunikation verbessert.

2025-08-20T16:11:30+00:00 ― 5 min Lesedauer

Ton Verstehen von automatischer Spracherkennungstechnologie

Eine Übersicht über ASR und seine Fortschritte in modernen Anwendungen.

2025-08-20T15:22:55+00:00 ― 4 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Spracherkennung von Emotionen mit der EMOVOME-Datenbank

Neue Methoden erkunden, um die Spracherkennung von Emotionen mit natürlichen Daten zu verbessern.

2025-08-20T01:37:00+00:00 ― 5 min Lesedauer

Robotik Verbesserung der Spracherkennung von Robotern in lauten Umgebungen

Die Forschung konzentriert sich darauf, Robotern zu helfen, Sprache besser zu verstehen, auch wenn Hintergrundgeräusche da sind.

2025-08-19T22:22:40+00:00 ― 6 min Lesedauer

Ton Automatisierung der Bewertung der Musikalität durch Audioanalyse

Diese Studie bringt die Musikpädagogik voran, indem sie die Bewertung der Schwierigkeit von Klavierstücken automatisiert.

2025-08-19T21:34:05+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Bewertung der Spracherkennung in lauten Umgebungen

Ein neuer Benchmark bewertet die Leistung von Spracherkennungssystemen unter verschiedenen Störungen.

2025-08-19T14:16:50+00:00 ― 5 min Lesedauer

Ton Die Zukunft von KI in der Musikproduktion

Die Rolle von KI beim Gestalten von Musik durch fortgeschrittene Techniken und Strukturen erkunden.

2025-08-18T14:47:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung von Sprachmodellen mit RobustDistiller

Eine neue Methode verbessert die Leistung und Effizienz von Sprachmodellen in lauten Umgebungen.

2025-08-18T05:53:30+00:00 ― 6 min Lesedauer

Ton Neural-SRP: Fortschritte bei der Klangquellenlokalisierung

Eine neue Methode kombiniert traditionelle Techniken mit neuronalen Netzen für eine bessere Schalllokalisierung.

2025-08-17T23:24:50+00:00 ― 5 min Lesedauer

Ton Fortschrittliche akustische Sensorik mit Deep Learning

Ein neuer Ansatz, um die akustische Wahrnehmung zu verbessern, ohne die Audioqualität zu beeinträchtigen.

2025-08-17T20:59:05+00:00 ― 7 min Lesedauer

Ton Fortschritte bei der Gestengenerierung aus Sprache

Ein neues System verbessert die Erstellung realistischer Gesten nur mit Sprachaudio.

2025-08-17T14:30:25+00:00 ― 6 min Lesedauer

Ton Notochord: Ein neues MIDI-Tool für Musiker

Notochord verbessert die Echtzeit-MIDI-Musikproduktion mit KI für reichhaltigere Performances.

2025-08-17T06:24:35+00:00 ― 6 min Lesedauer

Ton Prompt-Singer: Ein neuer Ansatz zur Kontrolle der Gesangsstimme

Eine Methode für intuitivere Steuerung von Gesangsstimmen mit natürlichen Sprachbefehlen.

2025-08-17T01:33:05+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Sprachausdruckserkennung mit emoDARTS

Das neue Modell emoDARTS verbessert die Genauigkeit bei der Erkennung von Sprachemotionen durch Deep Learning.

2025-08-16T17:27:15+00:00 ― 7 min Lesedauer

Ton Fortschritte bei den Eigenschaften von Text-zu-Sprache-Stimmen

Eine Studie zur Verbesserung von TTS-Systemen mit vielfältigen Sprachproben.

2025-08-16T12:35:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Sprachbearbeitungstechnologie

Neue Tools verbessern die Bearbeitung und Produktionsqualität von Sprachaufnahmen.

2025-08-15T09:03:55+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Tanzbegleit-Technologie

Neue Modelle verbessern die Duett-Interaktionen in virtuellen Tanzaufführungen.

2025-08-14T21:43:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Die Wiederbelebung der Geschichte: Die Kunst der Audio-Restaurierung

Entdeck, wie generative Equalization alten Musikaufnahmen neues Leben einhaucht.

2025-08-14T20:06:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Die Klassifizierung von Sorani-Kurdischen Unterdialekten durch Audiodaten

Forschung identifiziert und klassifiziert die Sorani-Kurdisch-Dialekte mit Hilfe umfangreicher Audioaufnahmen.

2025-08-14T07:57:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Automatisierung der Klangabstimmung für realistische Akustik

Eine neue Methode verbessert die Klangverarbeitung durch automatisches Tuning von Feedback-Delay-Netzwerken.

2025-08-14T07:09:15+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der automatischen Sprachqualitätsbewertung

Eine neue Methode verbessert die Sprachauswertung mit kompletten Aufnahmen.

2025-08-14T06:20:40+00:00 ― 7 min Lesedauer

Ton Die Einhaltung in generativen Musikmodellen messen

Ein neuer Ansatz, um zu bewerten, wie gut Musik auf Audioaufforderungen reagiert.

2025-08-13T23:03:25+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Einführung des 360+x-Datensatzes für verbesserte Szenenverständnis

Ein neuer Datensatz verbessert, wie Roboter reale Umgebungen interpretieren.

2025-08-13T18:11:55+00:00 ― 7 min Lesedauer

Ton Neuer Ansatz zur Audio-Trennung mit Sprache

Diese Methode verbessert die Audio-Trennung, indem sie Sprachbeschreibungen mit Klanganalysen kombiniert.

2025-08-13T14:57:35+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführung von UniAV: Ein einheitlicher Ansatz zur Video-Lokalisierung

UniAV kombiniert Aktionslokalisierung, Geräuscherkennung und audio-visuelle Ereignislokalisierung für ein besseres Videoverstehen.

2025-08-13T10:06:05+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung CLaM-TTS: Fortschritt in der Text-zu-Sprache-Technologie

CLaM-TTS verbessert die Sprachsynthese mit fortschrittlichen Techniken für mehr Effizienz und Qualität.

2025-08-13T08:28:55+00:00 ― 6 min Lesedauer

Soziale und Informationsnetzwerke Musik durch Grafiken analysieren

Grafiken ermöglichen neue Einblicke in die Struktur und Beziehungen von Musik.

2025-08-13T03:09:57+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Text-to-Speech mit RALL-E verbessern

RALL-E verbessert die Text-zu-Sprache-Synthese für klarere, natürlichere Sprache.

2025-08-13T01:11:40+00:00 ― 5 min Lesedauer

Ton Fortschritte im virtuellen analogen Audio-Modeling

Erforschen von Machine-Learning-Techniken zur Modellierung von analogen Audioeffekten.

2025-08-12T22:37:18+00:00 ― 6 min Lesedauer

Ton MuPT: Musikgenerierung mit ABC-Notation vorantreiben

MuPT nutzt die ABC-Notation für eine effektive Musikgenerierung mit KI.

2025-08-12T09:00:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Audio-Lernen voranbringen mit M2D und M2D-X

Neue Methoden verbessern die Audio-Repräsentation durch selbstüberwachtes Lernen.

2025-08-12T07:22:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Schallfeldrekonstruktion mit KI

Eine Methode, die KI nutzt, verbessert die Klangdarstellung in verschiedenen Umgebungen.

2025-08-12T00:54:10+00:00 ― 7 min Lesedauer

Klassische Physik Verstehen von spektralen Momenten in der elektromagnetischen Prüfung

Erforsche die Rolle von Spektralmomenten bei Tests in Nachhallkammern und den Einfluss von Geräuschen.

2025-08-12T00:28:33+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Effizientes Echtzeit Klavier-Transkriptionsmodell

Ein neues System für genaue und leichte Echtzeit-Piano-Transkription.

2025-08-12T00:05:35+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Any2Point: Brücke für 3D-Verständnis in KI-Modellen

Ein neues Framework verbessert das Verständnis von KI für 3D-Räume.

2025-08-11T19:14:05+00:00 ― 7 min Lesedauer

Computerwissenschaften - Ton