Computerwissenschaften - Multimedia

RSS

Computer Vision und Mustererkennung Einen offenen Metaversum für alle schaffen

Ein neuer Ansatz, um zugängliche virtuelle Räume mit WebXR und A-Frame zu erstellen.

2025-06-22T18:26:06+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte im visuellen Dokumentenverständnis mit SynthDoc

SynthDoc erstellt synthetische Dokumente für maschinelles Lernen im Dokumentenlesen.

2025-06-22T09:13:06+00:00 ― 6 min Lesedauer

Multimedia Neue Methode zur Vorhersage von Emotionen in Videos

Diese Studie stellt ein Modell vor, um emotionale Reaktionen auf Videoinhalte zu analysieren.

2025-06-21T12:56:30+00:00 ― 7 min Lesedauer

Audio- und Sprachverarbeitung Kombination von Stimme und Gesicht für bessere Identifikation

In diesem Artikel geht's um die Vorteile von der Zusammenlegung von Sprach- und Gesichtserkennungssystemen.

2025-06-21T08:24:30+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung RGBA-Bilderstellung vereinfachen mit Alfie

Eine neue Methode, um RGBA-Bilder einfach und effektiv zu erstellen.

2025-06-21T06:45:12+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Känguru: Ein neuer Ansatz für Videoverständnis

Kangaroo verbessert die Videoanalyse, indem es visuelle Elemente, Sounds und Text effektiv integriert.

2025-06-20T14:33:30+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Ein neuer Ansatz zur Bildsegmentierung

Dieses Papier präsentiert ein einzelnes Encoder-Modell für verbesserte Bildsegmentierung basierend auf Textbeschreibungen.

2025-06-20T14:09:48+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Technologie zur Extraktion von Zielsprechern

Neue Methoden verbessern die Sprachtrennung in lauten Umgebungen.

2025-06-20T13:47:05+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Bildbeschriftung mit kausaler Inferenz verbessern

Ein neues Framework verbessert die Genauigkeit bei Bildbeschreibungen und verringert Fehler.

2025-06-20T09:09:36+00:00 ― 6 min Lesedauer

Multimedia Fortschrittliche multimodale Interaktionssysteme

Die Verbesserung, wie Maschinen Benutzer durch bessere Interaktion und Reaktionsmassnahmen unterstützen.

2025-06-19T23:48:42+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion MetaDigiHuman: Eine neue Art, im Metaversum zu verbinden

Eintauchen in digitale Menschen und haptische Schnittstellen für immersive Interaktionen.

2025-06-18T20:09:42+00:00 ― 6 min Lesedauer

Bild- und Videoverarbeitung Verbesserung der Video-Datenübertragung durch smarte Vorhersagen

Neue Methoden verbessern die Videoübertragung, indem sie fehlende Daten effektiv vorhersagen.

2025-06-18T18:03:35+00:00 ― 5 min Lesedauer

Ton Dynamische Hintergrundmusik-Generierung für interaktive Medien

Ein Framework für die Echtzeitanpassung von Musik in Spielen und Filmen.

2025-06-18T10:46:20+00:00 ― 6 min Lesedauer

Multimedia Fortschritte in der generativen Gesichts-Videokodierung

MRDAC verbessert die Videoqualität und -kompression von Gesichtern mithilfe mehrerer Referenzbilder.

2025-06-18T07:23:24+00:00 ― 6 min Lesedauer

Ton Ultraschallgeräusche zur Indoor-Abstandsmesung nutzen

Forscher erkunden Ultraschall-Echos für präzise Distanzmessungen in ruhigen Innenräumen.

2025-06-18T04:17:40+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Die Rolle von Schatten in der Bildverarbeitung

Erforschung von Schattenerkennung, -entfernung und -generierung in der Computer Vision.

2025-06-17T23:21:30+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Bildklarheit bei schlechtem Wetter verbessern

Eine neue Methode verbessert die Bildqualität bei schlechtem Wetter mithilfe von Sprach- und Vision-Modellen.

2025-06-17T23:05:42+00:00 ― 6 min Lesedauer

Multimedia Ein neues Framework für Privatsphäre in mobilem Cloud-Computing

Dieses Framework verbessert die Effizienz von Multimedia-Apps und schützt dabei die Privatsphäre der Nutzer.

2025-06-17T15:51:12+00:00 ― 7 min Lesedauer

Rechnen und Sprache LongLLaVA: Eine neue Ära in der Bildverarbeitung

LongLLaVA verbessert das Verständnis von mehreren Bildern für verschiedene Anwendungen.

2025-06-17T07:57:12+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung SegTalker: Fortschritt bei Sprachsynthese-Technologie

SegTalker verbessert sprechende Gesichts-Videos mit realistischen Texturen und einfacher Bearbeitung.

2025-06-16T15:21:48+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung HiSC4D: Ein neuer Ansatz für Motion Capture

HiSC4D erfasst menschliche Bewegungen mithilfe tragbarer Sensoren für eine bessere Interaktionsanalyse.

2025-06-16T02:27:36+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschrittliche Fragen-Beantwortung für dichte Videoereignisse

Eine Methode vorstellen, um das Fragen-Beantworten in Videos mit mehreren Ereignissen zu verbessern.

2025-06-16T02:19:42+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Audio-Visuellen Sprecherdiarisierung

Ein Überblick über audio-visuelle Sprecherdiarisierungsmethoden, Herausforderungen und Systeme.

2025-06-15T21:14:00+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Leistung von Vision-Language-Modellen

Diese Arbeit verbessert die Vision-Sprach-Modelle durch bessere Datenstrategien und innovative Techniken.

2025-06-15T18:02:00+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Visuelle Verankerung mit MMCA vorantreiben

Eine neue Methode verbessert die Objekterkennung in Bildern durch massgeschneiderte visuelle und textliche Integration.

2025-06-15T09:12:42+00:00 ― 6 min Lesedauer

Multimedia Meme-Klassifizierung mit SimCLIP verbessern

SimCLIP verbessert die Meme-Analyse, indem es Text und Bilder effektiv kombiniert.

2025-06-15T01:42:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Die wichtigste Person in sozialen Bildern identifizieren

Das MIP-GAF-Dataset hilft dabei, soziale Dynamiken in Bildern zu analysieren.

2025-06-14T02:24:06+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung von Vision-Language-Modellen durch kompositionale Ausrichtung

Ein neuer Ansatz verfeinert die Verbindung zwischen Bildern und Text in VLMs.

2025-06-13T05:12:12+00:00 ― 6 min Lesedauer

Ton Kunst und Musik durch Emotionen verbinden

Forschung verbindet Gemälde mit Musik, indem sie Emotionen interpretiert.

2025-06-12T23:35:50+00:00 ― 6 min Lesedauer

Multimedia Neue Methode zur Erkennung menschlicher Emotionen

Eine Studie zeigt einen neuen Weg, um Emotionen mit Video, Sound und Text zu identifizieren.

2025-06-12T23:24:36+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Spracherkennung mit mehreren Eingabetypen verbessern

Dieser Artikel beleuchtet, wie unterschiedliche Eingaben die Spracherkennung verbessern können.

2025-06-12T15:30:00+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Musikunterricht mit LLaQo revolutionieren

LLaQo bietet detailliertes Feedback zur Bewertung von Musikaufführungen und verbessert so das Lernen der Schüler.

2025-06-12T02:32:40+00:00 ― 5 min Lesedauer

Netzwerke und Internet-Architektur Starlink und die Zukunft des Video-Streamings

Erforschen, wie Starlink das Video-Streaming weltweit beeinflusst.

2025-06-11T20:33:00+00:00 ― 5 min Lesedauer

Ton Die wachsende Rolle von KI in der Musikproduktion

Künstliche Intelligenz verändert die Musik mit neuen Werkzeugen und Ansätzen.

2025-06-11T07:55:15+00:00 ― 6 min Lesedauer

Netzwerke und Internet-Architektur Fortschritte bei der Staukontrolle für Video-Streaming

Verbesserung der Echtzeitkommunikation durch neue Staukontrollmethoden.

2025-06-11T02:22:48+00:00 ― 6 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierung

Neue Methoden verbessern die Audio-Synchronisation bei wechselnden Videoszenen.

2025-06-10T20:35:05+00:00 ― 4 min Lesedauer

Rechnen und Sprache NVLM: Fortschrittliches multimodales KI-Verständnis

NVLM verbessert das Verständnis von KI für Sprache und Bilder bei verschiedenen Aufgaben.

2025-06-10T18:52:30+00:00 ― 6 min Lesedauer

Rechnen und Sprache Token-Reduktionsmethode verbessert die Effizienz in MLLMs

Die TRIM-Methode reduziert Bildtokens in multimodalen Sprachmodellen, während die Leistung erhalten bleibt.

2025-06-10T11:06:24+00:00 ― 5 min Lesedauer

Rechnen und Sprache Die Rolle grosser Sprachmodelle im cross-modalem Denken

Erforschen, wie LLMs das Denken bei verschiedenen Datentypen verbessern.

2025-06-10T08:52:06+00:00 ― 8 min Lesedauer

Ton PDMX: Eine neue Ressource für KI-Musikforschung

PDMX bietet eine riesige Sammlung von Symbolmusik im öffentlichen Bereich für die KI-Entwicklung an.

2025-06-10T08:26:20+00:00 ― 6 min Lesedauer