Computerwissenschaften - Multimedia

Multimedia EMID: Ein neuer Ansatz für Musik und Bilder

Erkunde die emotionalen Verbindungen zwischen Musik und Bildern mit dem EMID-Datensatz.

2025-10-08T07:45:36+00:00 ― 6 min Lesedauer

Bild- und Videoverarbeitung Visuelle Bilder aus Gehirnsignalen rekonstruieren

Diese Forschung verbindet die Gehirnaktivität mit der visuellen Wahrnehmung, indem sie Bilder aus EEG-Signalen rekonstruiert.

2025-10-08T06:54:00+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Worte mit Bildern verbinden: Visuelles Grounding entschlüsselt

Entdecke den Einfluss von visueller Verankerung in der Interaktion von Sprache und Bildern.

2025-10-07T08:43:06+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Videoerkennung mit AVGN vorantreiben

Eine neue Methode verbessert die Effizienz bei der Videoerkennung durch die Nutzung von Audio- und Visualdaten.

2025-10-07T00:09:36+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Fortschritte in der KI für Spieletests

Ein neuer KI-Agent verbessert die Effizienz und Qualität von Spieletests.

2025-10-06T23:38:00+00:00 ― 7 min Lesedauer

Multimedia Einführung von Dronevision: Ein kompaktes 3D-Displaysystem

Dronevision revolutioniert 3D-Multimedia mit einem tischgrossen Display, das fliegende Drohnen nutzt.

2025-10-06T22:03:12+00:00 ― 7 min Lesedauer

Multimedia Bewertung von Abstandssensoren für fliegende Lichtpunkte

Eine Studie über Sensoren, die entscheidend für die Leistung neuer Drohnen sind.

2025-10-06T21:55:18+00:00 ― 4 min Lesedauer

Informationsbeschaffung Empfehlungssysteme mit multimodalen Daten verbessern

Ein neues Framework verbessert die Artikelvorschläge mit verschiedenen Datentypen.

2025-10-05T12:52:24+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung EVE: Ein neuer Ansatz für Vision-Sprach-Modelle

Entdecke EVE, ein Modell, das das Verständnis von Bildern und Text verbessert.

2025-10-05T11:09:42+00:00 ― 6 min Lesedauer

Multimedia Fortschritte bei Vision-Language Pretraining-Modellen

Forschung konzentriert sich darauf, Modelle zu verbessern, die visuelle und textliche Inhalte durch Sprachverständnis verbinden.

2025-10-04T21:51:48+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Fortschritte in der Gestenentwicklung für KI-Kommunikation

Neues Modell verbessert die Gesten generierung für menschlichere Interaktionen.

2025-10-04T05:32:12+00:00 ― 5 min Lesedauer

Multimedia Fortschritte im visuellen akustischen Matching

Eine neue Methode verbessert die Audioanpassung mithilfe von Bildern und steigert die Realitätsnähe in Audioumgebungen.

2025-10-03T03:55:25+00:00 ― 7 min Lesedauer

Maschinelles Lernen Die Risiken von Steganografie im maschinellen Lernen

Untersuchung versteckter Datenprobleme in Machine-Learning-Modellen und deren Sicherheitsauswirkungen.

2025-10-03T03:12:12+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Neue Datensatzverknüpfungen verbinden Emotionen mit MIDI-Musik

Ein Datensatz verbindet Emotionen mit MIDI-Songs durch die Analyse von Songtexten.

2025-10-03T02:18:15+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung TextVQA mit der Separate and Locate Methode verbessern

Ein neuer Ansatz verbessert die Genauigkeit beim Beantworten von Fragen zu Text in Bildern.

2025-10-02T16:40:12+00:00 ― 5 min Lesedauer

Multimedia Fortschritte im visuellen Frage-Antworten mit PROOFREAD

PROOFREAD verbessert das visuelle Fragenbeantworten mit Wissen aus grossen Sprachmodellen.

2025-10-02T08:30:24+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Musikbeschriftung mit grossen Sprachmodellen

LLMs nutzen, um ein riesiges Datenset für Musikbeschriftungen zu erstellen.

2025-10-02T08:29:25+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Terrain-Generierung mit TDN

Das Terrain Diffusion Network verbessert die realistische Landschaftserstellung mit Nutzerbeteiligung.

2025-10-02T06:00:18+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Sprachstil-Übertragungstechnologie

HierVST verwandelt Stimmen mühelos und verbessert die Audioqualität, ohne viel Daten zu brauchen.

2025-10-02T05:15:05+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Neue Methode zum Verwandeln von Gesichtern in künstlerische Skizzen

Ein neuer Ansatz verwandelt Gesichtsphotos in menschenähnliche Zeichnungen mit fortschrittlichen Techniken.

2025-10-02T04:33:24+00:00 ― 6 min Lesedauer

Multimedia Fortschritte bei der Einschätzung der Engagements in Gesprächen

Forschung entwickelt ein Modell, um Engagement in Gesprächen genau zu messen.

2025-10-01T21:57:50+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Echtheit schützen: Die DRAW-Methode für RAW-Bilder

Ein neuer Ansatz, um RAW-Bilder vor Manipulation zu schützen.

2025-10-01T10:37:40+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Verstehen von VideoQA: Herausforderungen und Lösungen

Neue Datensätze und Methoden verbessern die Genauigkeit bei der Video-Frage-Antwortung.

2025-10-01T06:57:48+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschrittliche Stimmungsanalyse mit dem UniSA-Framework

Das UniSA-Framework vereint Aufgaben in der Sentiment-Analyse für bessere Emotionserkennung.

2025-10-01T06:18:18+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Neue Technik überlistet Deepfake-Detektoren

Eine Methode mit Kopfbewegungen täuscht erfolgreich Deepfake-Erkennungssysteme.

2025-10-01T02:45:00+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Vorstellung des MultiWay-Adapters für multimodale Modelle

Ein Rahmenwerk für die effiziente Anpassung von multimodalen grossen Sprachmodellen.

2025-10-01T01:18:06+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Ein vergleichender Ansatz zur Datensatzinspektion

Prototypen nutzen, um den Datensatzvergleich in der Computervision zu verbessern.

2025-09-30T09:38:00+00:00 ― 9 min Lesedauer

Computer Vision und Mustererkennung Automatisiertes Typografie-Design für effektive Kommunikation

Ein Programm, das visuell ansprechende Typografie erstellt, die auf den Kontext abgestimmt ist.

2025-09-30T06:28:24+00:00 ― 4 min Lesedauer

Ton MusicLDM: Ein neuer Ansatz zur Text-zu-Musik-Generierung

MusicLDM verwandelt Texte in originelle Musik und eröffnet frische Möglichkeiten für Kreativität.

2025-09-30T05:28:40+00:00 ― 8 min Lesedauer

Ton Verbesserung der Techniken zur Melodieextraktion beim Singen mit Deep Learning

Neue Methoden verbessern die Genauigkeit beim Herausziehen von Gesangsmelodien aus gemischtem Audio.

2025-09-30T01:25:45+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der Audio-Untertitel-Technologie

Neue Methoden zielen darauf ab, die Audiobeschriftung für bessere Genauigkeit und Effizienz zu verbessern.

2025-09-30T00:25:00+00:00 ― 5 min Lesedauer

Multimedia Verbesserung der Bewertungsmethoden für Audio-Untertitelung

Neue Techniken verbessern die Qualitätseinschätzung von Audio-Untertiteln durch automatische Fehlererkennung.

2025-09-30T00:17:06+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Die Untersuchung der Stimmbeschaffenheit und ihrer Auswirkungen

Diese Studie untersucht Methoden zur Klassifizierung der Stimmqualität und deren Bedeutung in der Kommunikation.

2025-09-29T12:28:25+00:00 ― 5 min Lesedauer

Kryptographie und Sicherheit Der wachsende Bedarf an Steganalyse in der Informationssicherheit

Steganalyse hilft dabei, versteckte Nachrichten in Multimedia zu entdecken und sorgt für sichere Kommunikation.

2025-09-28T23:31:05+00:00 ― 4 min Lesedauer

Multimedia TranSTYLer: Ein Sprung in der virtuellen Kommunikation

Gesten für virtuelle Agenten umwandeln, während die Bedeutung erhalten bleibt.

2025-09-28T18:39:35+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Deepfakes erkennen: Ein neuer Ansatz

Eine Methode, die Audio und Video nutzt, um Deepfake-Detection zu verbessern.

2025-09-27T19:29:12+00:00 ― 5 min Lesedauer

Ton Fortschrittliche Gesten-Generierung für digitale Menschen

Eine neue Methode erstellt realistische Gesten aus rohem Sprachaudio.

2025-09-27T08:39:05+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion UnifiedGesture: Automatische Gestenerstellung vorantreiben

Eine neue Methode zur Erzeugung von Gesten, die gut zur Sprache passen.

2025-09-27T06:35:00+00:00 ― 7 min Lesedauer

Rechnen und Sprache Umgang mit Subjektivität in Nachrichtenartikeln

Die Erkennung von Subjektivität in Nachrichten ist entscheidend für genaue Informationen.

2025-09-27T03:57:00+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung VEATIC: Ein neuer Datensatz für Emotionserkennung

VEATIC bietet einen reichhaltigeren Datensatz zum Studium menschlicher Emotionen im Kontext.

2025-09-27T02:30:06+00:00 ― 7 min Lesedauer