Diese Studie untersucht Mix-Training für die Schlüsselworterkennung unter lauten Sprachbedingungen.

2025-07-19T16:39:18+00:00 ― 5 min Lesedauer

Maschinelles Lernen Kleine Modelle mit den Einsichten grosser Modelle verbessern

Eine neue Methode hilft kleineren Modellen, besser abzuschneiden, indem sie Hinweise von grösseren Modellen nutzen.

2025-07-19T14:08:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der audiovisuellen Quellen-Trennung

Schau dir die Updates in Version 3 des Divide and Remaster Datasets an.

2025-07-19T12:31:35+00:00 ― 6 min Lesedauer

Ton Fortschritte bei Audio-Sprachdatensätzen

Eine umfassende Übersicht über Datensätze, die in Audio-Sprachmodellen verwendet werden, und deren Bedeutung.

2025-07-19T06:51:30+00:00 ― 10 min Lesedauer

Mensch-Computer-Interaktion Neues Ohrhörer-System misst Atemfrequenzen

Ein zuverlässiges Earbud-basiertes System überwacht die Atemfrequenzen während verschiedener täglicher Aktivitäten.

2025-07-19T06:02:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Spracherkennung für ressourcenschwache Sprachen

Die Verbesserung von Spracherkennungssystemen für Sprachen mit begrenzten Online-Daten.

2025-07-19T04:25:45+00:00 ― 5 min Lesedauer

Multimedia Fortschritte im audio-visuellen Zero-Shot-Lernen

Ton und Bilder kombinieren für schlauere Erkennungssysteme.

2025-07-18T21:08:30+00:00 ― 7 min Lesedauer

Ton Neuer Ansatz zur Erkennung von Audio-Deepfakes

Eine Methode zur Verbesserung der Audio-Deepfake-Erkennung durch Datenaugmentierung.

2025-07-18T16:17:00+00:00 ― 6 min Lesedauer

Graphik Beat-It: Tanzkreation mit Musik revolutionieren

Beat-It erstellt synchronisierte Tanzbewegungen, um Choreografien mühelos zu verbessern.

2025-07-18T15:28:25+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierungstechnologie

Forscher wollen Sounds kreieren, die zu stillen Videos passen, um das Seherlebnis zu verbessern.

2025-07-18T12:14:05+00:00 ― 6 min Lesedauer

Rechnen und Sprache Herausforderungen bei Systemen zum Verständnis gesprochener Sprache

Diese Studie beschäftigt sich mit den Problemen von SLU-Systemen und deren Fähigkeit zur Verallgemeinerung.

2025-07-18T11:25:30+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Musiktechnologie mit STONE

Ein selbstüberwachtes Werkzeug zur Schätzung von musikalischen Tonarten, das Expertenanmerkungen reduziert.

2025-07-18T10:36:55+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Automatisches Musikmixen mit Diff-MST vorantreiben

Diff-MST verbessert das Musik-Mixing, indem es Style-Transfer von Referenztracks anwendet.

2025-07-18T07:22:35+00:00 ― 6 min Lesedauer

Ton Kommunikation voranbringen: Spracherkennung trifft auf Morsecode

Ein neues Modell verbessert die Kommunikation für Menschen mit Behinderungen durch Spracherkennung und Morsecode.

2025-07-18T02:52:00+00:00 ― 5 min Lesedauer

Ton ElasticAST: Ein flexibler Ansatz zur Audio-Klassifizierung

ElasticAST ermöglicht die effiziente Verarbeitung von Audio mit variabler Länge, ohne wichtige Details zu verlieren.

2025-07-18T02:31:05+00:00 ― 6 min Lesedauer

Ton Stimmen klonen: Eine neue Herausforderung für Musikrechte

Analyse von Methoden zur Identifizierung von Sängern angesichts wachsender Bedenken über Stimmklonung.

2025-07-18T01:42:30+00:00 ― 6 min Lesedauer

Ton Neue Methode zur Erkennung von teilweise gefälschtem Audio

Ein neuer Ansatz verbessert die Erkennung von gemischten echten und gefälschten Audioclips.

2025-07-17T17:36:40+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Die Effizienz von Mamba in der Sprachtechnologie bewerten

Mamba zeigt vielversprechende Ergebnisse gegen Transformer bei Sprachaufgaben, besonders bei langen Eingaben.

2025-07-17T13:33:45+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Gesangsstimme-Synthese mit SingFlex

SingFlex bietet innovative Lösungen, um vielseitige Gesangsstimmen effizient zu kreieren.

2025-07-17T07:05:05+00:00 ― 6 min Lesedauer

Informationstheorie Die Komplexität in der irischen Tanzmusik messen

Eine Studie über die Komplexität irischer traditioneller Tanzmelodien mit Kompressionsmethoden.

2025-07-17T06:56:50+00:00 ― 5 min Lesedauer

Ton RefinPaint: Ein neuer Ansatz zur Musikgenerierung

RefinPaint verbessert die Musikproduktion, indem es schwache Stellen effektiv erkennt und verfeinert.

2025-07-17T06:16:30+00:00 ― 6 min Lesedauer

Ton Whisper anpassen für verbesserte Sprecherverifikation

Ein neues Framework verbessert die Leistung der Sprachverifikation mit begrenzten Daten.

2025-07-17T00:36:25+00:00 ― 6 min Lesedauer

Ton Die Lücke Überbrücken: KI und Musiker in Harmonie

Neue Wege erkunden, wie KI mit Musikern durch Interpretation zusammenarbeiten kann.

2025-07-16T15:42:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Audio-Sicherheit voranbringen mit kontinuierlichem Lernen

CADE verbessert die Audioerkennung gegen sich entwickelnde Spoofing-Bedrohungen mit kontinuierlichen Lerntechniken.

2025-07-16T10:50:30+00:00 ― 7 min Lesedauer

Robotik Geräusche nutzen, um Objekte in der Robotik zu lokalisieren

Eine neue Methode hilft Robotern, heruntergefallene Objekte mit Schall zu finden.

2025-07-16T06:47:35+00:00 ― 6 min Lesedauer

Ton Fortschritte bei sprachgesteuerten Drohnensystemen

Neue Sprachsteuerungssysteme verbessern die Drohnenkontrolle ganz ohne Hände.

2025-07-16T05:42:18+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Modellierung von Gitarrenverstärkern

Neue Techniken ermöglichen eine bessere Emulation von Gitarrenverstärkern und Effekten.

2025-07-15T23:30:20+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Code-Switching ASR mit Wissensdistillation

Ein neues Framework verbessert die ASR-Leistung mit begrenzten Daten und Ressourcen.

2025-07-15T22:41:45+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Audioklangerzeugung mit Diffusionsmodellen

Eine neue Methode verbessert die Effizienz der Audioerzeugung mit innovativen Aufmerksamkeits-Techniken.

2025-07-15T20:16:00+00:00 ― 5 min Lesedauer

Ton BandControlNet: Ein neuer Ansatz für die Musikkreation

Entdecke, wie KI die Musikproduktion mit BandControlNet verändert.

2025-07-15T19:27:25+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Neue Methode zur Erkennung von Deepfakes

Ein neuer Ansatz verbessert die Deepfake-Erkennung durch audio-visuelle Analyse.

2025-07-15T12:10:10+00:00 ― 5 min Lesedauer

Ton Die Entwicklung von automatischen Spracherkennungssystemen

Ein Blick auf die Fortschritte bei Spracherkennungstechnologien und -methoden.

2025-07-15T11:21:35+00:00 ― 5 min Lesedauer

Ton Verbesserung der Stottererkennung mit MMSD-Net

Ein neues Verfahren verbessert die Stottererkennung, indem es Audio-, Video- und Textdaten kombiniert.

2025-07-15T07:18:40+00:00 ― 6 min Lesedauer

Ton Innovative Klanggeneration für 3D-Menschenmodelle

Ein neues Verfahren verbessert die Klangproduktion für realistische 3D-Menschenmodelle.

2025-07-15T00:01:25+00:00 ― 7 min Lesedauer

Ton Atemfrequenzen durch Sprachanalyse schätzen

Diese Studie zeigt, wie Sprache die Atemfrequenz mit fortgeschrittenen Modellen schätzen kann.

2025-07-14T23:12:50+00:00 ― 6 min Lesedauer

Ton GraphMuse: Ein neues Tool für Musik-Analyse

GraphMuse vereinfacht die Analyse von symbolischen Musikdaten mit fortschrittlichen Machine-Learning-Techniken.

2025-07-14T19:58:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Spracherkennung für die polnische Sprache

Die Forschung präsentiert neue Methoden zur Bewertung von Spracherkennungssystemen in Polnisch.

2025-07-14T16:44:10+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung MSceneSpeech: Fortschritte in der Mandarin-Sprachsynthese

Ein neues Dataset verbessert die maschinelle Sprachverarbeitung für Mandarin und zielt auf natürliche Ausdrucksweise ab.

2025-07-14T09:26:55+00:00 ― 6 min Lesedauer

Multimedia Fortschritte bei der Schallquellenlokalisierung durch audio-visuelle Integration

Eine Studie zur Verbesserung der Klangquellenlokalisierung durch bessere Nutzung von Audio- und visuellen Informationen.

2025-07-14T06:12:35+00:00 ― 8 min Lesedauer

Maschinelles Lernen Bewertung der kognitiven Gesundheit durch Sprachanalyse

Ein neues Framework analysiert Sprache, um leichte kognitive Beeinträchtigungen in verschiedenen Sprachen zu erkennen.

2025-07-14T05:24:00+00:00 ― 6 min Lesedauer

Computerwissenschaften - Ton