Ein neues System verbessert die Interaktionen von Robotern, indem es überlappende Sprache herausfiltert.

2025-08-04T13:57:15+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ein einfaches Modell für audio-visuelle Generierung

Dieser Artikel bespricht ein neues einfaches Modell, um Audio aus Bildern zu generieren und umgekehrt.

2025-08-04T09:05:45+00:00 ― 5 min Lesedauer

Maschinelles Lernen Fortschritte bei automatischer Spracherkennung mit Denoising-Sprachmodellen

Denoising-Sprachmodelle verbessern die Fehlerkorrektur in Sprach-erkennungssystemen mit synthetischen Daten.

2025-08-03T22:34:10+00:00 ― 7 min Lesedauer

Ton NeRAF: Sound und Bilder für echten Realismus zusammenbringen

NeRAF erstellt synchronisierten Sound und Visuals für immersive Erlebnisse in verschiedenen Bereichen.

2025-08-03T07:11:05+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Innovativer Ansatz zur gemeinsamen Audio-Video-Generierung

Eine neue Methode verbessert die Audio-Video-Ausrichtung mit vortrainierten Modellen.

2025-08-03T04:45:20+00:00 ― 6 min Lesedauer

Ton Verbesserung der Überwachung von bolzengeschlossenen Verbindungen mit Deep Learning

Tiefe Lernverfahren zur Verbesserung der akustischen Emissionsüberwachung von geschraubten Verbindungen.

2025-08-02T21:28:05+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Klang und Bewegung in der Musik zusammenbringen

Ein neuer Ansatz, um Singen und Tanzen durch fortschrittliche Computertechniken zu kombinieren.

2025-08-02T20:39:30+00:00 ― 6 min Lesedauer

Ton Musikmixing neu überdenken: Ein neuer Ansatz

Entdecke eine neue Methode, um Musikmixing durch Audioanalyse zu verstehen.

2025-08-02T20:21:18+00:00 ― 6 min Lesedauer

Ton Fortschritte bei Sprach-Inpainting-Techniken

Lern, wie Speech Inpainting die Audioqualität in verschiedenen Bereichen wiederherstellt.

2025-08-02T18:13:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Crosstalk reduzieren für klareres Sprechen

Ein neues System verbessert die Sprachklarheit in Umgebungen mit mehreren Sprechern.

2025-08-02T14:10:50+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-Emotions-Erkennungstechnologie

Neue Methoden verbessern, wie Maschinen Emotionen in der Sprache erkennen.

2025-08-02T13:22:15+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierung mit Frieren

Das Frieren-Modell verbessert die Audioqualität und den Sync für Videos.

2025-08-02T10:07:55+00:00 ― 6 min Lesedauer

Ton Innovative Audio-Synthese aus Textbeschreibungen

Eine neue Methode erzeugt einzigartige Klänge aus Text mit einem einfachen Synthesizer.

2025-08-02T08:30:45+00:00 ― 8 min Lesedauer

Rechnen und Sprache Fortschritte in der Sprachübersetzungstechnologie

Neue Methode verbessert die Sprachübersetzung in lauten Umgebungen und bewahrt gleichzeitig die Ausdrucksstärke.

2025-08-01T13:53:20+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Innovative Musikgenerierung für Videos

Eine neue Methode, um Musik zu erstellen, die gut zu Videoinhalten passt.

2025-08-01T13:48:30+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Text-zu-Sprache-Technologie

Seed-TTS erstellt lebensechte Sprache aus Text für verschiedene Anwendungen.

2025-08-01T10:39:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-zu-Gesang-Technologie

Neue Methode verbessert die Umwandlung von Sprache in Gesang mithilfe von selbstüberwachtem Lernen.

2025-08-01T09:50:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache StreamSpeech: Eine neue Art, Sprache zu übersetzen

StreamSpeech verbessert die Echtzeit-Sprachübersetzung in Bezug auf Effizienz und Qualität.

2025-08-01T03:21:45+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Einführung des 4D-Modells in der Spracherkennung

Ein neues Modell verbessert die Spracherkennung mit mehreren Dekodierungs-Methoden.

2025-08-01T01:44:35+00:00 ― 7 min Lesedauer

Rechnen und Sprache Verbesserung der arabischen Spracherkennung durch Wissensdistillation

Eine Studie zur Verbesserung der automatischen Spracherkennung für arabische Dialekte mit effizienten Modelltechniken.

2025-07-31T23:18:50+00:00 ― 5 min Lesedauer

Rechnen und Sprache BLSP-Emo: Ein neuer Schritt in empathischer KI

Wir stellen BLSP-Emo vor, ein Modell, das Sprache und Emotionen versteht, für bessere Interaktionen.

2025-07-31T21:41:40+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Dateninterpretation neu betrachten: Studie zu Klang und Bildern

Eine aktuelle Studie bestätigt wichtige Ergebnisse zur Dateninterpretation mit Klang und Bildern.

2025-07-31T20:04:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung DenseAV: Klänge und Bilder verbinden

Ein System, das Geräusche mit visuellen Eindrücken verbindet und dadurch das Verständnis von Maschinen verbessert.

2025-07-31T10:21:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprachsynthese mit ARDiT

Das neue Modell ARDiT verbessert die Text-zu-Sprache-Synthese und die Sprachbearbeitung.

2025-07-31T07:55:45+00:00 ― 5 min Lesedauer

Rechnen und Sprache Verbesserung des AI-Verstehens durch kontextuelles Parsing

Wir stellen SPICE vor, eine Aufgabe, um AI-Interaktionen mit kontextuellen Informationen zu verbessern.

2025-07-30T23:49:55+00:00 ― 8 min Lesedauer

Ton Fortschritte in der kreuzmodalen Musikverarbeitung

Die Forschung stellt das MOSA-Dataset vor, das das Verständnis der visuellen und auditiven Aspekte von Musik verbessert.

2025-07-30T23:01:20+00:00 ― 7 min Lesedauer

Rechnen und Sprache Vorstellung von mHuBERT-147: Ein kompaktes Sprachmodell

mHuBERT-147 verarbeitet Sprache effizient in mehreren Sprachen.

2025-07-30T22:12:45+00:00 ― 5 min Lesedauer

Ton Audio-Untertitelung durch innovative Methoden transformieren

Ein neuer Ansatz für Audio-Beschriftung verringert die Abhängigkeit von gepaarten Daten.

2025-07-30T21:24:10+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Emotionserkennung durch Sprache

Neue Methoden verbessern, wie Maschinen Emotionen in menschlicher Sprache erkennen.

2025-07-30T18:09:50+00:00 ― 6 min Lesedauer

Maschinelles Lernen Herausforderungen bei Audio-Wasserzeichen-Techniken

Untersuchung von Schwachstellen in Audio-Wasserzeichen-Methoden gegen reale Bedrohungen.

2025-07-30T13:18:20+00:00 ― 7 min Lesedauer

Ton Einführung von PianoMotion10M: Ein neuer Datensatz für das Klavierlernen

PianoMotion10M bietet detaillierte Handbewegungen, um Klavierlernenden zu helfen.

2025-07-30T01:09:35+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Klanggenerierung aus Video

Ein neues Modell verbessert die Klanganpassung an visuelle Aktionen in Videos.

2025-07-29T23:32:25+00:00 ― 11 min Lesedauer

Ton Fortschritte in der 3D-Audio-Wiedergabe mit AVGS

Neues Modell verbessert realistische Audioerlebnisse in virtuellen Umgebungen.

2025-07-29T20:18:05+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Audio-Technologie zur Fussgängerverfolgung nutzen

Diese Studie untersucht Audio-Methoden zur Verfolgung von Fussgängerbewegungen in städtischen Gebieten.

2025-07-29T17:52:20+00:00 ― 8 min Lesedauer

Audio- und Sprachverarbeitung Foley-Audio mit dem MINT-Datensatz voranbringen

Ein neuer Datensatz verbessert die Erstellung von Foley-Audio für multimediale Inhalte.

2025-07-29T17:03:45+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte bei der automatischen Spracherkennung mit dynamischem TTA

Neue Methoden verbessern die Spracherkennung in lauten Umgebungen mit adaptiven Techniken.

2025-07-29T13:49:25+00:00 ― 7 min Lesedauer

Ton SPEAR: Ein neuer Ansatz zur Klanganalyse

SPEAR sagt das Klangverhalten in 3D-Räumen voraus, indem es nur minimal Daten sammelt.

2025-07-29T10:35:05+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte in der Übersetzung von Code-Switching-Sprache

Eine neue Methode verbessert die Übersetzung von gemischter Sprache in Englisch.

2025-07-29T09:46:30+00:00 ― 5 min Lesedauer

Ton Verbesserung der Sprecherverifikation in der Funkkommunikation

Eine neue Methode verbessert die Genauigkeit der Sprecherverifizierung in schwierigen Funkumgebungen.

2025-07-29T08:57:55+00:00 ― 7 min Lesedauer

Ton Verbesserung von Hintertürangriffen in der Spracherkennung

Neue Methode zielt auf Rhythmusänderungen für heimliche Sprachangriffe ab.

2025-07-29T08:09:20+00:00 ― 6 min Lesedauer

Computerwissenschaften - Ton