Eine Studie über die Verwendung von Transformern für effektives Musik-Tagging und -Repräsentation.

2025-09-02T07:01:40+00:00 ― 7 min Lesedauer

Multimedia Fortschritte in der Audio-Visual Lautsprecherlokalisierung

Eine neue Methode verbessert das Verfolgen von Sprechern mit Audio- und Videodaten.

2025-09-02T06:13:05+00:00 ― 7 min Lesedauer

Ton Neue Methode zur Analyse der Schwierigkeit von Klaviermusik

Ein neuer Ansatz, um die Schwierigkeit von Klaviermusik mithilfe von Notenblättern zu bewerten.

2025-09-02T05:24:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung von Besprechungs-Texterkennungen mit dem PP-MeT-System

PP-MeT zielt darauf ab, die Genauigkeit beim Transkribieren von Mehrsprecher-Meetings zu verbessern.

2025-09-02T04:35:55+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Ein universeller Ansatz zur Sprachverbesserung

Diese Forschung stellt ein Modell vor, um die Sprachverständlichkeit unter verschiedenen Bedingungen zu verbessern.

2025-09-02T02:10:10+00:00 ― 5 min Lesedauer

Ton Der Aufstieg der automatisierten Audio-Untertitelung

Die Fortschritte bei automatisierten Audio-Untertitelungen und deren Einfluss auf die Barrierefreiheit erkunden.

2025-09-02T01:21:35+00:00 ― 5 min Lesedauer

Ton Innovative Sprachtrennung mit Audio- und visuellen Daten

Forschung bringt 'ne effektive Methode, um die Sprachklarheit in lauten Umgebungen zu verbessern.

2025-09-02T00:33:00+00:00 ― 7 min Lesedauer

Maschinelles Lernen Fortschrittliches Audio-Stil-Matching mit traditionellen Effekten

Eine neue Methode vereinfacht den Audio-Stiltransfer mit nicht-differenzierbaren Effekten.

2025-09-01T19:41:30+00:00 ― 7 min Lesedauer

Ton Bewertung der Qualität von computer-generierten Klavieraufführungen

Die Forschung untersucht, wie Computermusik im Vergleich zur menschlichen Aufführung bei Hörtests abschneidet.

2025-09-01T07:32:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Die Verbesserung des Sounddesigns mit ultrasphärischen Polynomen

Lerne, wie ultrasphärische Polynome die Audiotechnologie und die Schallrichtung verbessern.

2025-09-01T05:55:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschrittliche Spracherkennung mit SSRL

Eine neue Methode verbessert die Spracherkennung mit weniger Labels und Ressourcen.

2025-09-01T00:15:30+00:00 ― 7 min Lesedauer

Ton Fortschritte bei Text-zu-Audio-Bindungstechniken

Neue Methoden verbessern die Verknüpfung von Textbeschreibungen zu Klangereignissen.

2025-08-31T16:09:40+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Richtungswahrnehmung von Geräuschen in sich bewegenden Robotern

Innovative Methoden verbessern, wie Roboter die Schallrichtung während der Bewegung verarbeiten.

2025-08-31T14:32:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Beamforming-Technologie

Erfahre mehr über echtwertige Beamforming und die Vorteile für Mikrofonarrays.

2025-08-31T12:06:45+00:00 ― 6 min Lesedauer

Ton Ein neues Modell zur Musikgenerierung mit KI

MusicAOG vereinfacht die Musikproduktion und das Verständnis durch eine innovative grafische Darstellung.

2025-08-31T08:52:25+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Effektive MIMO-Systeme mit sphärischen Arrays gestalten

Ein neues Framework zum Kombinieren von sphärischen Mikrofon- und Lautsprecheranordnungen in Klangstudien.

2025-08-31T07:15:15+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Entwicklung effektiver Hörsysteme für humanoide Roboter

Ein neues Framework zur Verbesserung der Schallerkennung in humanoiden Robotern durch Mikrofonanordnungsdesign.

2025-08-31T06:26:40+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Raumakustik mit MIMO-Systemen

Entdecke, wie MIMO-Systeme die Klanganalyse in verschiedenen Umgebungen verbessern.

2025-08-31T02:23:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Raumakustikforschung

Neue Techniken verbessern die Schallrichtungsbestimmung für verschiedene Audio-Settings.

2025-08-31T01:35:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Kontrolliere den Sound für klarere Hörerlebnisse

Forschung zeigt Methoden, um das Klangverhalten in Räumen anzupassen und die Klarheit zu verbessern.

2025-08-31T00:46:35+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Humor in Videos mit FunnyNet-W erkennen

Ein neues Modell erkennt witzige Momente in Videos, indem es visuelle, Audio- und Textdaten nutzt.

2025-08-30T23:09:25+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei dielektrischen Elastomeren für Technologie

Dielektrische Elastomer werden genutzt, um elektrische Energie in mechanische Bewegung umzuwandeln und bieten viele verschiedene Anwendungen.

2025-08-30T20:43:40+00:00 ― 8 min Lesedauer

Rechnen und Sprache Einsatz von ASR-Technologie zur Unterstützung bei der Demenzdiagnose

ASR-Transkripte mit Fehlern können helfen, Alzheimer genauer zu identifizieren.

2025-08-30T16:40:45+00:00 ― 8 min Lesedauer

Rechnen und Sprache Einführung von ELLA-V: Ein neues Kapitel in der Sprachsynthese

ELLA-V verbessert die Text-zu-Sprache-Qualität und Kontrolle und übertrifft frühere Modelle.

2025-08-30T01:17:40+00:00 ― 6 min Lesedauer

Quantitative Methoden Neue Methode verbessert die akustische Überwachung von Wildtieren

Ein neuer Ansatz verbessert die Genauigkeit der Erkennung von Tierrufen ohne willkürliche Schwellenwerte.

2025-08-29T23:46:39+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der Sprachklassifizierung mit multimodalen Daten

Ein neues Modell kombiniert Audio und Text für eine bessere Sprachklassifikation.

2025-08-29T18:49:00+00:00 ― 7 min Lesedauer

Ton NOTSOFAR-1 Challenge: Fortschritte bei der Transkriptionstechnologie für Meetings

Eine neue Initiative zur Verbesserung der Transkriptionstechnologie für Meetings in grossen Räumen.

2025-08-29T16:23:15+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritte bei der Korrektur von Fehlern in der Spracherkennung

Neue Methoden verbessern die Genauigkeit bei der Erkennung von Sprache in lauten Umgebungen mit grossen Sprachmodellen.

2025-08-29T01:48:45+00:00 ― 6 min Lesedauer

Ton Das Verstehen von Hühnergeräuschen für besseres Farming

Die Analyse von Hühnergeräuschen hilft, ihre Gesundheit und die Produktivität auf dem Bauernhof zu verbessern.

2025-08-29T00:11:35+00:00 ― 8 min Lesedauer

Mensch-Computer-Interaktion Sound Unblending: Ein neues Tool für gemischte Realität

Eine Methode, um sehbehinderten Menschen zu helfen, Geräusche in einer gemischten Realität zu erkennen.

2025-08-28T20:57:15+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Herausforderung der Sprachtechnologie für unterversorgte Sprachen anpacken

Dieser Artikel bespricht Lösungen für Sprach-Anwendungen in Sprachen mit begrenzten transkribierten Daten.

2025-08-28T18:31:30+00:00 ― 6 min Lesedauer

Maschinelles Lernen Fortschritte in der Klangklassifizierung mit projizierten Glaubensnetzwerken

Forscher kombinieren generative und diskriminative Methoden für eine bessere Klangklassifizierung.

2025-08-28T16:05:45+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit Stärkung der Sprachverifikation gegen Spoofing-Angriffe

Ein neues Modell verbessert die Sicherheit bei der Sprachidentifikation und widersteht Sprachfälschungen.

2025-08-28T15:17:10+00:00 ― 6 min Lesedauer

Maschinelles Lernen Verbesserung der Aufmerksamkeitsmechanismen mit GAAM

Ein Blick auf die Gausssche Adaptive Aufmerksamkeit für bessere KI-Leistung.

2025-08-28T14:28:35+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Deep Learning und Sprachrhythmanalyse

Forschung zeigt, dass Deep Learning unser Verständnis für Sprachrhythmus verbessert.

2025-08-28T12:51:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der multimodalen Verarbeitung mit CoAVT

CoAVT integriert Audio-, Visual- und Textdaten für ein besseres Verständnis.

2025-08-28T12:02:50+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprecher-Diarisation mit der E-SHARC-Methode

E-SHARC verbessert die Sprecheridentifikation in verschiedenen Audio-Umgebungen.

2025-08-28T06:22:45+00:00 ― 6 min Lesedauer

Ton MoodLoopGP: Emotionen in loopbarer Musik gestalten

Ein neues System erstellt Musik, die darauf ausgelegt ist, Freude und Traurigkeit auszudrücken.

2025-08-28T04:45:35+00:00 ― 6 min Lesedauer

Ton Einflüsse in generativen Musikmodellen navigieren

Ein Leitfaden zum Verstehen von Musikähnlichkeiten in generativen Modellen.

2025-08-27T22:16:55+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung Techniken zur Klangwiedergabe und -bewertung

Eine Studie zur Klangsynthetisierung und deren Bewertung in kontrollierten Umgebungen.

2025-08-27T16:36:50+00:00 ― 5 min Lesedauer

Computerwissenschaften - Ton