Dieser Ansatz verknüpft Videoaktionen und Sound mithilfe von Physik für bessere Soundeffekte.

2025-11-28T12:58:10+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der audiovisuellen Spracherkennung mit visuellen Hinweisen

Eine neue Methode verbessert die Spracherkennung mit visuellen Daten und bestehenden Modellen.

2025-11-28T10:32:25+00:00 ― 7 min Lesedauer

Künstliche Intelligenz Ein neues Framework für Musikannotationen

Dieser Artikel behandelt einen systematischen Ansatz zur Musikannotation.

2025-11-28T06:29:30+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Verstehen der Musiknoten-Ontologie

Ein strukturierter Ansatz zur Musikdarstellung und Aufführungsanalyse.

2025-11-28T05:40:55+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschritt bei zweisprachigen visuell fundierten Sprachmodellen

Diese Studie verbessert zweisprachige Sprachmodelle mit starker Sprachunterstützung.

2025-11-28T04:03:45+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Bilder aus Geräuschen erstellen: Das Sound2Scene Modell

Neues Modell verwandelt Geräusche in klare Bilder und überbrückt audio-visuelle Informationen.

2025-11-28T03:15:10+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Neue Methode zur Audio-Beschriftung mit begrenzten Daten

Ein neuartiger Ansatz, um Audiountertitel mit vortrainierten Sprachmodellen zu erstellen.

2025-11-28T02:26:35+00:00 ― 6 min Lesedauer

Rechnen und Sprache Modulare Innovationen in Spracherkennungssystemen

Ein neuer Ansatz verbessert die Anpassungsfähigkeit der Spracherkennungstechnologie.

2025-11-27T16:43:35+00:00 ― 4 min Lesedauer

Rechnen und Sprache Neue Ansätze in der Spracherkennungstechnologie

Ein Blick auf Fortschritte bei Spracherkennungsmodellen für Effizienz und Genauigkeit.

2025-11-27T15:55:00+00:00 ― 5 min Lesedauer

Rechnen und Sprache Neue Methode zur Bewertung von Spracherkennungssystemen

Ein neuer Ansatz zur Messung der Spracherkennungleistung ohne manuelle Transkription.

2025-11-26T22:06:10+00:00 ― 5 min Lesedauer

Rechnen und Sprache Sprachanonymisierung in COVID-19-Diagnosen: Privatsphäre und Genauigkeit im Gleichgewicht halten

Untersuchen, wie Sprach-Anonymisierung die COVID-19-Diagnosesysteme und den Datenschutz der Nutzer beeinflusst.

2025-11-26T01:03:00+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Revolutionierung des Schlagzeugspielens: Das Air Drumming System

Erlebe das Trommeln nur mit zwei Stöcken und einem Smartphone, keine schwere Ausrüstung nötig.

2025-11-25T21:48:40+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Wie KI das Musik-Mixing verändert

KI-Tools machen das Mischen einfacher und bieten neue Möglichkeiten für Amateure und Profis gleichermassen.

2025-11-24T20:42:35+00:00 ― 8 min Lesedauer

Ton Blasen im Wasser: Eine neue Klangfrontier

Blasen könnten der Schlüssel zu innovativer Musikproduktion sein.

2025-11-24T18:42:00+00:00 ― 7 min Lesedauer

Ton Fortschritte bei automatisierten Audio-Untertiteln

Ein Blick auf neue Methoden, die Audio-Untertitelung für bessere Barrierefreiheit verbessern.

2025-11-24T10:11:00+00:00 ― 5 min Lesedauer

Computer und Gesellschaft Sprachbiometrie: Datensätze, Vorurteile und Datenschutzprobleme

Die Analyse von Datensätzen, die in der Sprachbiometrie verwendet werden, zeigt erhebliche Vorurteile und Datenschutzprobleme auf.

2025-11-24T06:56:40+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Sprecherverifikation mit Margin-Mixup

Eine neue Methode verbessert die Sprecherverifikationssysteme bei überlappenden Stimmen.

2025-11-24T01:16:35+00:00 ― 6 min Lesedauer

Maschinelles Lernen Neue Techniken zur Sprachverarbeitung

Innovative Methoden für effektive Sprachsegmentdarstellung in Verarbeitung Aufgaben.

2025-11-23T14:45:00+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Sprachsynthese mit Pausen-Vorhersage verbessern

Verbesserung von TTS-Systemen für besseres Geschichtenerzählen durch effektives Setzen von Pausen.

2025-11-23T09:53:30+00:00 ― 4 min Lesedauer

Ton AffectMachine-Klassisch: Eine neue Art, emotionale Musik zu erstellen

AffectMachine-Classical erzeugt in Echtzeit klassische Musik, um bei der Emotionsbewältigung zu helfen.

2025-11-23T06:39:10+00:00 ― 7 min Lesedauer

Ton Einfluss von TTS-Systemen auf die Sprach-zu-Sprach-Übersetzung

Diese Studie untersucht, wie verschiedene TTS-Systeme die Leistung von S2ST-Modellen verbessern.

2025-11-23T02:36:15+00:00 ― 6 min Lesedauer

Rechnen und Sprache Modellierung von Backchannels: Ein Schritt zu natürlichen Gesprächen

Forschung zeigt, wie Backchannels die Maschinenkommunikation verbessern.

2025-11-23T01:47:40+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Audiomanipulation mit neuronalen Netzwerken

Forschung zeigt neue Wege, wie man Sound mit neuronalen Netzen für die Musikproduktion manipulieren kann.

2025-11-23T00:10:30+00:00 ― 5 min Lesedauer

Ton Audiovisuelles Lernen mit synchronisierten Filmen verbessern

Forschung nutzt synchronisierte Filme, um die Verbindung zwischen Sehen und Hören im maschinellen Lernen zu verbessern.

2025-11-22T07:58:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Eine neue Methode, um Sprachlaute über die Zeit zu analysieren

Vorstellung von Absement, einer Methode zur dynamischen Messung von Sprachlauten über die Zeit.

2025-11-22T03:07:20+00:00 ― 6 min Lesedauer

Ton Fortschritte bei Methoden zur Gesangstranskription

Ein neuer Ansatz, um Gesangstöne und Texte genau mit Technologie zu transkribieren.

2025-11-22T01:30:10+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Neues Modell verbessert die Emotionserkennung in Gesprächen

Das hierarchische Cross Attention Modell verbessert das emotionale Verständnis in verschiedenen Kommunikationsformen.

2025-11-21T19:01:30+00:00 ― 5 min Lesedauer

Ton Fortschritte in Musikabrufsystemen

Neue Methoden verbessern das Taggen und Abrufen von Musik mit weniger menschlichem Aufwand.

2025-11-21T06:52:45+00:00 ― 6 min Lesedauer

Ton Analyse der Signalgrössen in Sprachtrennmodellen

Diese Studie untersucht, wie die Länge des Signals die Sprachtrennung beeinflusst.

2025-11-21T04:27:00+00:00 ― 6 min Lesedauer

Robotik Mit Drohnengeräuschen Distanzen messen

Neue Methode schätzt Distanzen anhand von Drohnenmotorengeräuschen.

2025-11-21T00:24:05+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Emotionserkennung mit Audio-Visuellen Daten vorantreiben

Diese Forschung stellt ein neues Modell vor, um Emotionen besser anhand von Audio- und Visualdaten zu erkennen.

2025-11-20T21:09:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Maschinen und Geräusche: Kann KI akustische Beschreibungen verstehen?

Diese Studie untersucht, wie KI Geräusche bewertet und beschreibt im Vergleich zu Menschen.

2025-11-20T19:32:35+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachverbesserungstechnologie

FSB-LSTM verbessert die Sprachklarheit in lauten Umgebungen mit niedriger Latenz und geringer Komplexität.

2025-11-20T12:15:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Optimierung der Keyword-Erkennung für bessere Energieeffizienz

Forschung zeigt Wege, um Keyword-Spotting-Systeme zu verbessern und gleichzeitig den Stromverbrauch zu senken.

2025-11-20T11:26:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Prak vorstellen: Ein Tool für phonetiche Ausrichtung

Prak vereinfacht die phonetische Ausrichtung für die tschechische Sprachforschung.

2025-11-20T10:38:10+00:00 ― 5 min Lesedauer

Geophysik Fortschritte in der seismischen Überwachung mit der DAS-N2N-Technik

DAS-N2N nutzt maschinelles Lernen, um die seismische Datenerfassung durch Rauschreduzierung zu verbessern.

2025-11-20T00:13:15+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei einheitlichen Spracherkennungsmodellen

Neue Techniken verbessern die Genauigkeit bei Streaming- und Nicht-Streaming-Spracherkennung.

2025-11-19T23:18:00+00:00 ― 5 min Lesedauer

Ton Fortschritte in der symbolischen Musikgenerierung mit Subword-Tokenisierung

Diese Studie zeigt, wie Subword-Tokenisierung die Qualität und Effizienz der Musikgenerierung verbessert.

2025-11-19T20:03:40+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit Gegnerische Beispiele in der Spracherkennung: Risiken und Methoden

Untersuchung, wie angreifende Attacken Spracherkennungssysteme beeinflussen und Methoden zur Verbesserung der Übertragbarkeit.

2025-11-19T17:37:55+00:00 ― 6 min Lesedauer

Ton Fortschritte beim Erkennen von voreingenommenen Wörtern in der Sprache

CB-Conformer verbessert die Spracherkennung für voreingenommene Wörter mit innovativen Techniken.

2025-11-19T11:57:50+00:00 ― 5 min Lesedauer

Computerwissenschaften - Ton