Ein universeller Audio-Clip kann fortgeschrittene ASR-Modelle wie Whisper stummschalten.

2025-08-07T03:29:35+00:00 ― 6 min Lesedauer

Ton Neues Gerät verbessert Gespräche in lauten Umgebungen

Ein Gerät hilft, sich in vollen Räumen auf bestimmte Stimmen zu konzentrieren.

2025-08-06T19:23:45+00:00 ― 7 min Lesedauer

Ton Fortschritte bei der Audiobearbeitung mit Diffusionsmodellen

Eine neue Methode verbessert die Audio-Bearbeitung mit Diffusionsmodellen für präzise Änderungen.

2025-08-06T16:09:25+00:00 ― 5 min Lesedauer

Rechnen und Sprache Integration von Audio- und Sprachmodellen: SpeechVerse

SpeechVerse überbrückt das Verständnis von Audio und Sprachverarbeitung für eine bessere Interaktion zwischen Mensch und Computer.

2025-08-06T06:26:25+00:00 ― 6 min Lesedauer

Ton Bewertung von Vorurteilen in Sprachassistententechnologie

Neuer Datensatz zeigt Leistungsunterschiede zwischen unterschiedlichen demografischen Gruppen bei der Nutzung von Sprachassistenten.

2025-08-06T02:23:30+00:00 ― 7 min Lesedauer

Rechnen und Sprache Untersuchung der Sicherheit von Sprachmodellen

Dieser Artikel untersucht Schwachstellen in Sprachmodellen und Möglichkeiten, ihre Sicherheit zu verbessern.

2025-08-05T23:09:10+00:00 ― 6 min Lesedauer

Maschinelles Lernen Adressierung von Halluzinationen in KI-Modellen

Verstehen und Minderung von Halluzinationen bei KI für zuverlässige Leistung.

2025-08-05T17:29:05+00:00 ― 8 min Lesedauer

Ton Neue Methode nutzt Grafiken zur Musik Analyse

Ein neuer Ansatz nutzt graphbasierte neuronale Netze für eine effiziente Analyse von Musikdaten.

2025-08-05T15:51:55+00:00 ― 9 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei Audio-Text-Abgleichtechniken

Neue Methoden verbessern die Verbindungen zwischen Audioclips und Textbeschreibungen.

2025-08-05T14:14:45+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Verbesserung der Gesangs-Stimmen-Transkription mit dem ROSVOT-Modell

ROSVOT verbessert die Genauigkeit beim Transkribieren von Gesangsstimmen, selbst in lauten Umgebungen.

2025-08-05T10:11:50+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Die Zukunft der multimodalen Generierung mit LLMs

Entdecke, wie grosse Sprachmodelle Kreativität durch Multimedia-Generierung steigern.

2025-08-04T21:12:12+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Ein neuer Ansatz zur Generierung von audiovisuellen Inhalten

Ein Modell vorstellen, das synchronen Audio und Video mit gemischten Geräuschpegeln erzeugt.

2025-08-04T14:45:50+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Fortschrittliche Roboterkommunikation: Lösung für überlappende Sprache

Ein neues System verbessert die Interaktionen von Robotern, indem es überlappende Sprache herausfiltert.

2025-08-04T13:57:15+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ein einfaches Modell für audio-visuelle Generierung

Dieser Artikel bespricht ein neues einfaches Modell, um Audio aus Bildern zu generieren und umgekehrt.

2025-08-04T09:05:45+00:00 ― 5 min Lesedauer

Maschinelles Lernen Fortschritte bei automatischer Spracherkennung mit Denoising-Sprachmodellen

Denoising-Sprachmodelle verbessern die Fehlerkorrektur in Sprach-erkennungssystemen mit synthetischen Daten.

2025-08-03T22:34:10+00:00 ― 7 min Lesedauer

Ton NeRAF: Sound und Bilder für echten Realismus zusammenbringen

NeRAF erstellt synchronisierten Sound und Visuals für immersive Erlebnisse in verschiedenen Bereichen.

2025-08-03T07:11:05+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Innovativer Ansatz zur gemeinsamen Audio-Video-Generierung

Eine neue Methode verbessert die Audio-Video-Ausrichtung mit vortrainierten Modellen.

2025-08-03T04:45:20+00:00 ― 6 min Lesedauer

Ton Verbesserung der Überwachung von bolzengeschlossenen Verbindungen mit Deep Learning

Tiefe Lernverfahren zur Verbesserung der akustischen Emissionsüberwachung von geschraubten Verbindungen.

2025-08-02T21:28:05+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Klang und Bewegung in der Musik zusammenbringen

Ein neuer Ansatz, um Singen und Tanzen durch fortschrittliche Computertechniken zu kombinieren.

2025-08-02T20:39:30+00:00 ― 6 min Lesedauer

Ton Musikmixing neu überdenken: Ein neuer Ansatz

Entdecke eine neue Methode, um Musikmixing durch Audioanalyse zu verstehen.

2025-08-02T20:21:18+00:00 ― 6 min Lesedauer

Ton Fortschritte bei Sprach-Inpainting-Techniken

Lern, wie Speech Inpainting die Audioqualität in verschiedenen Bereichen wiederherstellt.

2025-08-02T18:13:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Crosstalk reduzieren für klareres Sprechen

Ein neues System verbessert die Sprachklarheit in Umgebungen mit mehreren Sprechern.

2025-08-02T14:10:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-Emotions-Erkennungstechnologie

Neue Methoden verbessern, wie Maschinen Emotionen in der Sprache erkennen.

2025-08-02T13:22:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierung mit Frieren

Das Frieren-Modell verbessert die Audioqualität und den Sync für Videos.

2025-08-02T10:07:55+00:00 ― 6 min Lesedauer

Ton Innovative Audio-Synthese aus Textbeschreibungen

Eine neue Methode erzeugt einzigartige Klänge aus Text mit einem einfachen Synthesizer.

2025-08-02T08:30:45+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritte in der Sprachübersetzungstechnologie

Neue Methode verbessert die Sprachübersetzung in lauten Umgebungen und bewahrt gleichzeitig die Ausdrucksstärke.

2025-08-01T13:53:20+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Innovative Musikgenerierung für Videos

Eine neue Methode, um Musik zu erstellen, die gut zu Videoinhalten passt.

2025-08-01T13:48:30+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Seed-TTS erstellt lebensechte Sprache aus Text für verschiedene Anwendungen.

2025-08-01T10:39:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-zu-Gesang-Technologie

Neue Methode verbessert die Umwandlung von Sprache in Gesang mithilfe von selbstüberwachtem Lernen.

2025-08-01T09:50:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache StreamSpeech: Eine neue Art, Sprache zu übersetzen

StreamSpeech verbessert die Echtzeit-Sprachübersetzung in Bezug auf Effizienz und Qualität.

2025-08-01T03:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Einführung des 4D-Modells in der Spracherkennung

Ein neues Modell verbessert die Spracherkennung mit mehreren Dekodierungs-Methoden.

2025-08-01T01:44:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der arabischen Spracherkennung durch Wissensdistillation

Eine Studie zur Verbesserung der automatischen Spracherkennung für arabische Dialekte mit effizienten Modelltechniken.

2025-07-31T23:18:50+00:00 ― 5 min Lesedauer

Rechnen und Sprache BLSP-Emo: Ein neuer Schritt in empathischer KI

Wir stellen BLSP-Emo vor, ein Modell, das Sprache und Emotionen versteht, für bessere Interaktionen.

2025-07-31T21:41:40+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Dateninterpretation neu betrachten: Studie zu Klang und Bildern

Eine aktuelle Studie bestätigt wichtige Ergebnisse zur Dateninterpretation mit Klang und Bildern.

2025-07-31T20:04:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung DenseAV: Klänge und Bilder verbinden

Ein System, das Geräusche mit visuellen Eindrücken verbindet und dadurch das Verständnis von Maschinen verbessert.

2025-07-31T10:21:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachsynthese mit ARDiT

Das neue Modell ARDiT verbessert die Text-zu-Sprache-Synthese und die Sprachbearbeitung.

2025-07-31T07:55:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung des AI-Verstehens durch kontextuelles Parsing

Wir stellen SPICE vor, eine Aufgabe, um AI-Interaktionen mit kontextuellen Informationen zu verbessern.

2025-07-30T23:49:55+00:00 ― 8 min Lesedauer

Ton Fortschritte in der kreuzmodalen Musikverarbeitung

Die Forschung stellt das MOSA-Dataset vor, das das Verständnis der visuellen und auditiven Aspekte von Musik verbessert.

2025-07-30T23:01:20+00:00 ― 7 min Lesedauer

Rechnen und Sprache Vorstellung von mHuBERT-147: Ein kompaktes Sprachmodell

mHuBERT-147 verarbeitet Sprache effizient in mehreren Sprachen.

2025-07-30T22:12:45+00:00 ― 5 min Lesedauer

Ton Audio-Untertitelung durch innovative Methoden transformieren

Ein neuer Ansatz für Audio-Beschriftung verringert die Abhängigkeit von gepaarten Daten.

2025-07-30T21:24:10+00:00 ― 6 min Lesedauer

Computerwissenschaften - Ton