Computerwissenschaften - Multimedia

RSS

Computer Vision und Mustererkennung Fortschritte in der Talking Head Synthese mit GaussianTalker

GaussianTalker bietet natürliche Lippen-Synchronisation und hochqualitative Visuals für Sprechvideos.

2025-08-17T09:24:12+00:00 ― 6 min Lesedauer

Multimedia Innovative Methode zur Zeichenerkennung in Comics

Ein neuer Ansatz ermöglicht es Maschinen, Comic-Charaktere ohne vorheriges Training zu erkennen.

2025-08-17T09:00:30+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Spatial Audio für Videomacher zugänglich machen

Mimosa macht die Erstellung von räumlichem Audio für Amateur-Videomacher super einfach.

2025-08-17T02:33:24+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Bewertung der Videoqualität in nutzergenerierten Inhalten

Die AIS 2024 Challenge will die Videoqualitätsbewertungen mit Deep Learning verbessern.

2025-08-16T21:01:36+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Realistische digitale Menschen: Der Aufstieg von GaussianTalker

GaussianTalker verwandelt digitale Interaktion mit lebensechten sprechenden Köpfen.

2025-08-16T19:34:42+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Der zunehmende Trend von Untertiteln im Streaming

Untertitel werden immer wichtiger, um das Zuschauererlebnis bei Streaming-Diensten zu verbessern.

2025-08-16T05:18:30+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Neue Methoden zur Erkennung von Deepfakes

Forschung stellt innovative Techniken vor, um die Erkennung von Deepfake-Videos zu verbessern.

2025-08-14T19:39:06+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführung des 360+x-Datensatzes für verbesserte Szenenverständnis

Ein neuer Datensatz verbessert, wie Roboter reale Umgebungen interpretieren.

2025-08-13T18:11:55+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Einführung von UniAV: Ein einheitlicher Ansatz zur Video-Lokalisierung

UniAV kombiniert Aktionslokalisierung, Geräuscherkennung und audio-visuelle Ereignislokalisierung für ein besseres Videoverstehen.

2025-08-13T10:06:05+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei den Techniken zur Objekterkennung

Eine neue Methode verbessert die Leistung der Objekterkennung mit adaptiven Anfragen.

2025-08-13T07:50:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Herausforderung, Deepfakes zu erkennen

Die Erforschung der menschlichen Fähigkeit, Deepfake-Videos im Vergleich zur KI-Erkennung zu identifizieren.

2025-08-12T22:05:42+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Auswirkungen von KI auf die Kameraführung

Erforschen, wie KI die Videoproduktionsprozesse für Filmemacher verändert.

2025-08-12T15:38:36+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Einführung von PEAVS: Eine neue Methode zur Messung der Audio-Visual-Synchronisation

PEAVS analysiert, wie gut Audio und Video zusammenarbeiten, um das Zuschauererlebnis zu verbessern.

2025-08-12T03:19:55+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Einführung von CinePile: Ein neuer Standard im Videoverständnis

CinePile stellt das Verständnis von langen Videos mit 305.000 verschiedenen Fragen auf die Probe.

2025-08-11T01:11:48+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit QMedShield: Medizinische Bilder mit Quantenverschlüsselung sichern

Eine neuartige Methode, die medizinische Bilder in der Cloud mit fortschrittlichen quantentechnischen Verfahren schützt.

2025-08-10T19:47:54+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Schätzung von Essensportionen mit 3D-Modellen

Eine neue Methode verbessert die Genauigkeit der Lebensmittelerfassung mit 3D-Modellen und 2D-Bildern.

2025-08-10T18:56:35+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Die Bedeutung von Kontext in Vision-Language Aufgaben

Diese Studie zeigt, wie Kontext das Verständnis von Maschinen für Bilder und Fragen verbessert.

2025-08-10T10:50:42+00:00 ― 7 min Lesedauer

Ton SemantiCodec: Der nächste Schritt in der Audiotechnologie

Ein neuer Audio-Codec, der hochwertige Kompression und reichhaltigen semantischen Inhalt bietet.

2025-08-08T19:10:10+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung von realistischen sprechenden Gesichts-Videos

Eine Studie stellt eine neue Methode vor, um synchronisierte sprechende Gesichtsvideos zu erstellen.

2025-08-08T08:17:06+00:00 ― 6 min Lesedauer

Künstliche Intelligenz Die Zukunft der multimodalen Generierung mit LLMs

Entdecke, wie grosse Sprachmodelle Kreativität durch Multimedia-Generierung steigern.

2025-08-04T21:12:12+00:00 ― 8 min Lesedauer

Mensch-Computer-Interaktion Die Zukunft des 3D-Entwurfs für Designer

Die Vorteile von immersivem 3D-Skizzieren für Architekten und Designer erkunden.

2025-08-04T19:45:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Ein neuer Ansatz zur Generierung von audiovisuellen Inhalten

Ein Modell vorstellen, das synchronen Audio und Video mit gemischten Geräuschpegeln erzeugt.

2025-08-04T14:45:50+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ein einfaches Modell für audio-visuelle Generierung

Dieser Artikel bespricht ein neues einfaches Modell, um Audio aus Bildern zu generieren und umgekehrt.

2025-08-04T09:05:45+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Methoden zur Erstellung von 3D-Inhalten

Neue Techniken verbessern die Qualität und das Training für 3D-Bilder.

2025-08-04T02:30:24+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung NuNet: Eine neue Art, die Ernährung zu schätzen

NuNet nutzt RGB- und Tiefendaten für genauere Ernährungsschätzungen.

2025-08-03T08:51:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Innovativer Ansatz zur gemeinsamen Audio-Video-Generierung

Eine neue Methode verbessert die Audio-Video-Ausrichtung mit vortrainierten Modellen.

2025-08-03T04:45:20+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Einführungen von lernbaren Aufmerksamkeitsmasken für multimodale Aufgaben

Eine neue Methode, um die Aufmerksamkeitsmechanismen bei der Verarbeitung komplexer Daten zu verbessern.

2025-08-02T16:00:36+00:00 ― 7 min Lesedauer

Multimedia KI im Video-Streaming: Effizienz und Nachhaltigkeit

Erforschen, wie KI das Streaming von Videos verbessert und gleichzeitig die Energieeffizienz fördert.

2025-08-02T11:08:18+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierung mit Frieren

Das Frieren-Modell verbessert die Audioqualität und den Sync für Videos.

2025-08-02T10:07:55+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte im dynamischen Szenen-Rendering mit Gear-NeRF

Gear-NeRF verbessert das Rendering von dynamischen 3D-Szenen mit bewegungsbewussten Techniken.

2025-08-02T05:52:18+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Wasserzeichen-Techniken zum Schutz von Bildern

Neue Methoden stärken Wasserzeichen gegen moderne Bildbearbeitungsbedrohungen.

2025-08-02T05:36:30+00:00 ― 8 min Lesedauer

Mensch-Computer-Interaktion Innovative Ansätze zur Bewältigung von Hitzerisiken

Ein neues System kombiniert Daten und Nachrichten für ein besseres Risikomanagement bei Hitze.

2025-08-01T23:56:48+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Innovative Musikgenerierung für Videos

Eine neue Methode, um Musik zu erstellen, die gut zu Videoinhalten passt.

2025-08-01T13:48:30+00:00 ― 8 min Lesedauer

Mensch-Computer-Interaktion Dateninterpretation neu betrachten: Studie zu Klang und Bildern

Eine aktuelle Studie bestätigt wichtige Ergebnisse zur Dateninterpretation mit Klang und Bildern.

2025-07-31T20:04:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Text und Bilder für die Musikgenerierung kombinieren

Neues Modell generiert Musik mit Hilfe von Text und visuellen Informationen.

2025-07-31T12:47:15+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Ein einheitlicher Ansatz zur Erstellung von Text-zu-Bild

Bildgenerierung und -abruf kombinieren für besseren Zugang zu visuellen Informationen.

2025-07-31T09:30:00+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Zielsprachendiarisierungstechnologie

Ein Blick auf neue Methoden zum Verständnis von überlappender Sprache während Gesprächen.

2025-07-30T14:06:55+00:00 ― 8 min Lesedauer

Rechnen und Sprache Falschwissen bekämpfen mit ConDA-TTA

Eine neue Methode, um Nachrichten ausserhalb des Kontexts effizient zu erkennen.

2025-07-30T12:26:00+00:00 ― 4 min Lesedauer

Ton Einführung von PianoMotion10M: Ein neuer Datensatz für das Klavierlernen

PianoMotion10M bietet detaillierte Handbewegungen, um Klavierlernenden zu helfen.

2025-07-30T01:09:35+00:00 ― 6 min Lesedauer

Netzwerke und Internet-Architektur Verbesserung der Nutzererfahrung durch QoE-Bewertung

Erforschen, wie QoE-Massnahmen die Zufriedenheit mit Multimedia-Diensten steigern.

2025-07-30T00:27:06+00:00 ― 9 min Lesedauer