MIDI-Draw ermöglicht es jedem, Musik zu machen, indem er Melodien intuitiv zeichnet.

2025-11-06T09:47:30+00:00 ― 5 min Lesedauer

Ton Innovative Methoden zur Bewertung der Audioqualität

Neue Techniken, die aus der Bildverarbeitung entlehnt sind, verbessern die Bewertung der Audioqualität.

2025-11-06T08:58:55+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachverarbeitung mit visuellen Daten

Neue Methoden verbessern das maschinelle Verständnis von Sprache durch Audio- und visuelle Hinweise.

2025-11-06T07:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der Schlüsselworterkennung in lauten Umgebungen

Neues Modell verbessert die Keyword-Erkennung in schwierigen akustischen Bedingungen.

2025-11-06T04:07:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Verbesserung des Sprachverständnisses durch Knowledge Distillation

Eine neue Methode verbessert Sprachmodelle, indem sie Wissen von Textmodellen überträgt.

2025-11-06T01:41:40+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Coswara-Datensatz: Innovatives Tool zur COVID-19-Erkennung

Eine Sammlung von Atemgeräuschen hilft dabei, COVID-19-Fälle zu identifizieren.

2025-11-06T00:12:57+00:00 ― 5 min Lesedauer

Ton ACA-Net: Fortschritt bei Sprachverifikationssystemen

Ein neues Modell verbessert die Sprachverifikation mit effizienten Techniken.

2025-11-05T23:15:55+00:00 ― 5 min Lesedauer

Ton Fortschritte bei Sprechererkennungssystemen für die VoxCeleb-Herausforderung

Ein genauer Blick auf die Sprechererkennungstechniken, die für den Wettbewerb 2022 entwickelt wurden.

2025-11-05T21:38:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung des Verständnisses von Sprache und Emotionen durch KI

Ein neuer Ansatz trainiert KI, um Sprache und Emotionen in lauten Umgebungen besser zu erkennen.

2025-11-05T17:35:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Innovative Audio-Analyse für Familieninteraktion

Neue Methoden zielen darauf ab, das Verständnis für Familiendynamik und die psychische Gesundheit von Kindern zu verbessern.

2025-11-05T16:47:15+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Lautsprecherschutzsystemen

Neue Deep-Learning-Methoden verbessern die Vorhersagen zur Bewegung des Lautsprechers Diaphragmas.

2025-11-05T16:10:24+00:00 ― 5 min Lesedauer

Rechnen und Sprache Die Nutzung von ciwGAN für phonologische Analyse

Erforschen, wie ciwGAN phonetische Merkmale wie Nasalität lernen und darstellen kann.

2025-11-05T15:10:05+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennung mit MH-SSM

Ein neues Modell verbessert die Effizienz und Genauigkeit der Spracherkennung.

2025-11-05T14:21:30+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Spracherkennung mit Kontextverständnis

Eine neue Methode verbessert die Genauigkeit der Spracherkennung durch kontextuelle Informationen.

2025-11-05T13:32:55+00:00 ― 5 min Lesedauer

Ton Simulierung von noisigem Sprachsignal für bessere Erkennung

Forscher nutzen GANs, um aus sauberem Audio rauschen Sprache zu erzeugen, was die Sprachmodelle verbessert.

2025-11-05T12:44:20+00:00 ― 6 min Lesedauer

Ton Einführung des JNV-Korpus: Eine neue Sammlung japanischer nonverbaler vokalisierungen

Das JNV-Korpus fängt verschiedene emotionale Geräusche auf Japanisch ein und bereichert bestehende Sammlungen.

2025-11-05T11:55:45+00:00 ― 6 min Lesedauer

Ton Fortschritte in der realistischen Lachsynthese

Neue Methoden verbessern die Lachgenerierung für realistische Mensch-Computer-Interaktionen.

2025-11-05T11:07:10+00:00 ― 5 min Lesedauer

Ton Erkennung von synthetischer Sprache: Herausforderungen und Lösungen

Ein Blick darauf, wie man gefälschte Audios in der heutigen technikgetriebenen Welt erkennt.

2025-11-05T10:18:35+00:00 ― 4 min Lesedauer

Ton Fortschritte in der Spracherkennungsemotion mit LGFA

Eine neue Methode verbessert die Emotionserkennung in der Sprache durch fortschrittliche Transformer-Techniken.

2025-11-05T10:09:24+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortschrittliche Sprachmodelle durch Textwissen

Textmodelle nutzen, um die Sprachsynthese zu verbessern und das Verständnis zu steigern.

2025-11-05T09:30:00+00:00 ― 8 min Lesedauer

Maschinelles Lernen Fortschritt im multimodalen Lernen mit C-MCR

C-MCR vereinfacht das multimodale Lernen, indem es vorhandenes Wissen effizient verknüpft.

2025-11-05T03:49:55+00:00 ― 6 min Lesedauer

Ton FluentSpeech: Ein neuer Ansatz zur Stotterentfernung

FluentSpeech bietet eine automatische Lösung für reibungslosere Sprachbearbeitung.

2025-11-05T02:12:45+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Modulare Domänenanpassung: Ein neuer Ansatz für die Spracherkennung

MDA verbessert die Spracherkennung, indem es Modelle für bestimmte Datenbereiche optimiert.

2025-11-05T01:24:10+00:00 ― 6 min Lesedauer

Medizinische Physik Neue Studie verbindet Gehirnsignale mit Zungenbewegung

Forschung zeigt, dass Gehirnsignale helfen können, Zungenbewegungen beim Sprechen vorherzusagen.

2025-11-04T23:54:21+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Text-to-Speech-Technologie mit U-DiT

Das U-DiT TTS-System verbessert die natürliche Sprachsynthese durch eine innovative Architektur.

2025-11-04T23:47:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Spracherkennung für alle Sprecher verbessern

Eine neue Methode soll ASR-Systeme für Menschen mit Dysarthrie verbessern.

2025-11-04T22:58:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung der Sprecher-Diarisation durch Wortanalyse

Die Verbesserung der Sprecheridentifikation durch die Kombination von Klang und gesprochenen Worten in Audio.

2025-11-04T18:55:30+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Gesten für virtuelle Agenten anpassen

Virtuelle Agenten lernen, menschliche Gesten nachzuahmen, um besser zu interagieren.

2025-11-04T18:06:55+00:00 ― 6 min Lesedauer

Ton Klangsynthetik vereinfachen mit NAS-FM

Eine neue Methode zur Erstellung von Synthesizern, die Musiker unterstützt.

2025-11-04T17:18:20+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der aktiven Sprechererkennungstechnologie

Ein neues System verbessert die Erkennung aktiver Sprecher mit Hilfe von audio- und visuellen Hinweisen.

2025-11-04T16:29:45+00:00 ― 5 min Lesedauer

Ton Stärkung der Sprachverifizierung gegen fortschrittliche Bedrohungen

Ein Blick auf Herausforderungen und Abwehrmassnahmen in automatischen Sprecherverifikationssystemen.

2025-11-04T15:41:10+00:00 ― 5 min Lesedauer

Ton Die Rolle von optischen Netzwerken in der modernen Kommunikation

Optische Netzwerke ermöglichen schnellen Datentransfer und gestalten die Zukunft der Kommunikationstechnologie.

2025-11-04T14:04:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung allgemeiner Audio-Modelle für Sprachaufgaben

Eine neue Methode verbessert allgemeine Audio-Modelle für effektive Spracherkennung.

2025-11-04T05:58:10+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der Emotionserkennung in Gesprächen

Neues Modell verbessert das emotionale Verständnis in Dialogen.

2025-11-04T05:09:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Neues Modell verbessert die Qualität der Sprachübersetzung

Ein Modell kombiniert gesprochene Sprache und Text, um die Übersetzungsgenauigkeit zu verbessern.

2025-11-04T04:21:00+00:00 ― 6 min Lesedauer

Maschinelles Lernen Marmoset-Rufe mit menschlichen Sprachmodellen untersuchen

Forschung nutzt menschliche Sprachmodelle, um Marmoset-Vokalisationen effektiv zu analysieren.

2025-11-04T03:32:25+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Technologie zur Analyse von Lungengeräuschen

Neue Methoden verbessern die Früherkennung von Atemwegserkrankungen anhand von Klangdaten.

2025-11-04T02:43:50+00:00 ― 5 min Lesedauer

Ton Unterscheidung zwischen fröhlichem und spöttischem Lachen

Diese Studie untersucht, wie Lachen Emotionen durch Klanganalyse überträgt.

2025-11-04T01:55:15+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung EfficientSpeech: Text-to-Speech-Technologie auf dem Gerät

Ein neues Modell bringt Sprachfunktionen auf Geräte ohne Internet.

2025-11-04T01:06:40+00:00 ― 5 min Lesedauer

Ton Fortschritte in der emotionalen Text-zu-Sprache-Technologie

Das neue Modell ZET-Speech verbessert die emotionale Sprachsynthese für verschiedene Sprecher.

2025-11-03T23:29:30+00:00 ― 6 min Lesedauer

Computerwissenschaften - Ton