Computerwissenschaften - Multimedia

RSS

Multimedia Fortschritte in der Audio-Visual Lautsprecherlokalisierung

Eine neue Methode verbessert das Verfolgen von Sprechern mit Audio- und Videodaten.

2025-09-02T06:13:05+00:00 ― 7 min Lesedauer

Ton Ein neues Modell zur Musikgenerierung mit KI

MusicAOG vereinfacht die Musikproduktion und das Verständnis durch eine innovative grafische Darstellung.

2025-08-31T08:52:25+00:00 ― 7 min Lesedauer

Mensch-Computer-Interaktion Die Bedeutung von untypischen Emotionen

Stress und Depression zu analysieren kann unser Verständnis von mentaler Gesundheit verbessern.

2025-08-31T02:02:36+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Humor in Videos mit FunnyNet-W erkennen

Ein neues Modell erkennt witzige Momente in Videos, indem es visuelle, Audio- und Textdaten nutzt.

2025-08-30T23:09:25+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung AesopAgent: Geschichten in Videos verwandeln

AesopAgent erlaubt es Nutzern, mit fortschrittlichen KI-Tools Videos aus Geschichten zu erstellen.

2025-08-30T18:32:18+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Die Rolle von Bildern im Wikipedia-Lernen

Untersuchen, wie Bilder das Lernen in Wikipedia-Artikeln beeinflussen.

2025-08-30T02:28:30+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der Techniken zum Lernen von Mehrfachansichten-Darstellungen

Eine Methode zur Reduzierung von Redundanz in Mehransichts-Datenrepräsentationen.

2025-08-28T19:32:00+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der multimodalen Verarbeitung mit CoAVT

CoAVT integriert Audio-, Visual- und Textdaten für ein besseres Verständnis.

2025-08-28T12:02:50+00:00 ― 8 min Lesedauer

Multimedia Virbo: Video-Produktion mit Avataren vereinfachen

Erstell ganz einfach sprechende Avatar-Videos mit Virbos innovativem System.

2025-08-28T05:34:36+00:00 ― 7 min Lesedauer

Signalverarbeitung WiMANS-Datensatz: Menschliche Aktivitäten mit WiFi verfolgen

Das WiMANS-Dataset ermöglicht es, die Aktivitäten mehrerer Nutzer mithilfe von WLAN-Signalen zu verfolgen.

2025-08-28T03:08:25+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Ein einfacher Ansatz fürs Video-Editing

Ein neues Framework vereinfacht Videobearbeitungsaufgaben mit Bildbearbeitungswerkzeugen.

2025-08-26T23:33:24+00:00 ― 9 min Lesedauer

Künstliche Intelligenz Fortschrittliches multimodales Denken mit BDoG

BDoG verbessert das AI-Denken, indem es verschiedene Datentypen effektiv integriert.

2025-08-26T15:47:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Herakles: Ein neues Modell für Bild- und Zeitreihendaten

Heracles kombiniert Transformatoren und Zustandsraummodelle für eine verbesserte Datenverarbeitung.

2025-08-25T07:23:54+00:00 ― 6 min Lesedauer

Rechnen und Sprache Spracherkennung mit akustischen Daten verbessern

Eine neue Methode integriert akustische Informationen in Sprachmodelle für eine bessere Spracherkennung.

2025-08-25T02:15:55+00:00 ― 9 min Lesedauer

Mensch-Computer-Interaktion Krebsverständnis durch Musik verändern

Musik zu nutzen, um Krebs zu erklären, kann das Verständnis und das Interesse steigern.

2025-08-25T01:27:20+00:00 ― 7 min Lesedauer

Multimedia Fortschritt bei der Multi-Modalen Wissensgraph-Vervollständigung

Ein neues Framework verbessert die Vervollständigung von Wissensgraphen mit verschiedenen Datentypen.

2025-08-24T21:39:18+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Neue Methode für animierte Porträts

Eine neue Art, Porträts mit wechselnden Gesichtsausdrücken und Blickwinkeln zu animieren.

2025-08-23T20:54:06+00:00 ― 7 min Lesedauer

Bild- und Videoverarbeitung Verbesserung der Punktwolkenkompressionstechniken

Neue Methode verbessert die 3D-Datenkompression und behält dabei die Qualität bei.

2025-08-23T16:15:25+00:00 ― 9 min Lesedauer

Informationsbeschaffung Verbesserung von Produktbündeln mit CIRP

CIRP verbessert die Artikelpräsentation für bessere Online-Produkbündelung.

2025-08-23T04:34:30+00:00 ― 9 min Lesedauer

Rechnen und Sprache Der Aufstieg des Internets der Sinne

Erforschen, wie IoS unsere digitalen Erlebnisse verändern könnte, indem es alle Sinne anspricht.

2025-08-23T04:26:36+00:00 ― 11 min Lesedauer

Computer Vision und Mustererkennung Fortschritte im dichten Video-Capturing mit dem DIBS-Framework

DIBS verbessert die Beschriftung von Videoereignissen, indem es Grenzen mit ungelabelten Daten verfeinert.

2025-08-22T21:35:48+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung 3D-Szenenmodellierung mit Text und Bildern vorantreiben

Die Kombination von Bildern und Text verbessert die Genauigkeit bei der 3D-Tiefenschätzung.

2025-08-22T08:33:42+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Zukunft von WebXR im Metaversum

WebXR verwandelt, wie wir mit immersiven digitalen Umgebungen interagieren.

2025-08-21T07:24:48+00:00 ― 9 min Lesedauer

Multimedia Fortschritte in der Lippen-zu-Sprache-Technologie

Neue Methode verbessert die Sprachsynthese für Menschen, die nicht sprechen können.

2025-08-20T20:14:25+00:00 ― 7 min Lesedauer

Programmiersprachen AniFrame: Kreatives Coding für Anfänger einfach gemacht

AniFrame macht Programmierkunst für Neueinsteiger zugänglich mit einem benutzerfreundlichen Ansatz.

2025-08-19T18:40:42+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Text-zu-Bild-Synthese für Nachrichtenüberschriften

Neuer Datensatz verbessert die Bilderzeugung aus komplexen Nachrichtenüberschriften.

2025-08-19T17:13:48+00:00 ― 7 min Lesedauer

Multimedia Faktencheck von Fehlinformationen in sozialen Medien

Eine neue Methode verbessert das Faktenchecken von Aussagen in sozialen Medien.

2025-08-19T05:30:42+00:00 ― 7 min Lesedauer

Multimedia Einführung von Shotit: Eine neue Art, Videos zu suchen

Shotit ermöglicht es den Nutzern, Videos schnell mit Bildern zu finden und macht den Suchprozess einfacher.

2025-08-18T10:01:30+00:00 ― 6 min Lesedauer

Informationsbeschaffung Empfehlungen in Cold-Start-Szenarien verbessern

Ein neues Framework, um Empfehlungen ohne vorherige Daten zu verbessern.

2025-08-17T21:15:12+00:00 ― 7 min Lesedauer

Multimedia Pegasus-1: Ein neues Modell für Videoverständnis

Pegasus-1 ermöglicht es den Nutzern, mit Videos in natürlicher Sprache zu interagieren.

2025-08-17T17:10:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Talking Head Synthese mit GaussianTalker

GaussianTalker bietet natürliche Lippen-Synchronisation und hochqualitative Visuals für Sprechvideos.

2025-08-17T09:24:12+00:00 ― 6 min Lesedauer

Multimedia Innovative Methode zur Zeichenerkennung in Comics

Ein neuer Ansatz ermöglicht es Maschinen, Comic-Charaktere ohne vorheriges Training zu erkennen.

2025-08-17T09:00:30+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Spatial Audio für Videomacher zugänglich machen

Mimosa macht die Erstellung von räumlichem Audio für Amateur-Videomacher super einfach.

2025-08-17T02:33:24+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Bewertung der Videoqualität in nutzergenerierten Inhalten

Die AIS 2024 Challenge will die Videoqualitätsbewertungen mit Deep Learning verbessern.

2025-08-16T21:01:36+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Realistische digitale Menschen: Der Aufstieg von GaussianTalker

GaussianTalker verwandelt digitale Interaktion mit lebensechten sprechenden Köpfen.

2025-08-16T19:34:42+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Der zunehmende Trend von Untertiteln im Streaming

Untertitel werden immer wichtiger, um das Zuschauererlebnis bei Streaming-Diensten zu verbessern.

2025-08-16T05:18:30+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Neue Methoden zur Erkennung von Deepfakes

Forschung stellt innovative Techniken vor, um die Erkennung von Deepfake-Videos zu verbessern.

2025-08-14T19:39:06+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführung des 360+x-Datensatzes für verbesserte Szenenverständnis

Ein neuer Datensatz verbessert, wie Roboter reale Umgebungen interpretieren.

2025-08-13T18:11:55+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Einführung von UniAV: Ein einheitlicher Ansatz zur Video-Lokalisierung

UniAV kombiniert Aktionslokalisierung, Geräuscherkennung und audio-visuelle Ereignislokalisierung für ein besseres Videoverstehen.

2025-08-13T10:06:05+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei den Techniken zur Objekterkennung

Eine neue Methode verbessert die Leistung der Objekterkennung mit adaptiven Anfragen.

2025-08-13T07:50:18+00:00 ― 7 min Lesedauer