Computerwissenschaften - Multimedia

RSS

Ton LORIS: Ein neuer Ansatz zur Video-Musik-Generierung

LORIS erzeugt hochwertige Musik, die perfekt mit den Bewegungen im Video synchronisiert ist.

2025-11-14T05:38:50+00:00 ― 6 min Lesedauer

Neueste Artikel

Bild- und Videoverarbeitung GAMIVAL: Ein neues Tool für die Videoqualität von Spielen

2025-11-13T21:33:00+00:00 ― 4 min Lesedauer

Multimedia Video-Charaktersuche mit SoCoSearch vorantreiben

2025-11-13T14:20:24+00:00 ― 5 min Lesedauer

Rechnen und Sprache Desinformation mit FACTIFY 3M bekämpfen

2025-11-13T10:55:00+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Integritätsverschlüsseler: Ein neuer Ansatz zur Erkennung von Deepfakes

2025-11-12T20:18:06+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Methoden zur Bewertung der Videoqualität

2025-11-12T17:32:12+00:00 ― 6 min Lesedauer

Neueste Artikel

Computer Vision und Mustererkennung Der Aufstieg der Text-zu-Bild-Generierung

Dieser Artikel schaut sich den aktuellen Stand der Text-zu-Bild-Generierungstechnologie an.

2025-11-12T07:16:00+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Die Verbesserung der semantischen Segmentierung mit Tiefendaten

Eine neue Methode verbessert die Segmentierungsgenauigkeit, indem sie Tiefeninformationen ohne Quelldaten integriert.

2025-11-12T00:01:30+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Neues Framework verwandelt Videogenerierung aus Text

Eine neue Methode verbessert die Videoproduktion aus Text mit mehr Kontrolle und Qualität.

2025-11-11T16:15:24+00:00 ― 6 min Lesedauer

Audio- und Sprachverarbeitung Fortschritte in der Sprach-zu-Gesang-Technologie

Forschung zeigt eine Methode, um gesprochene Wörter effizient in Gesang zu verwandeln.

2025-11-11T12:52:10+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte im maschinellen Lernen mit integrierter multimodaler Wahrnehmung

Ein Blick darauf, wie integrierte multimodale Wahrnehmung die Fähigkeiten des maschinellen Lernens verbessert.

2025-11-10T19:51:55+00:00 ― 7 min Lesedauer

Ton Fortschritte in der Sprachsynthese mit CoMoSpeech

CoMoSpeech verbessert die Sprachsynthese-Geschwindigkeit und -Qualität mit einem einfachen Schritt.

2025-11-10T05:17:25+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion Hassangriffe in Live-Streaming-Communities angehen

Ein Blick auf Hate-Raids und ihren Einfluss auf marginalisierte Streamer.

2025-11-09T22:07:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschrittliche Bildkompression für menschliche Wahrnehmung

Eine neue Methode verbessert die Bildkompression, indem sie menschlich freundliche Merkmale priorisiert.

2025-11-09T19:34:25+00:00 ― 6 min Lesedauer

Rechnen und Sprache Memes im Kontext verstehen

Diese Studie hebt hervor, wie wichtig der Kontext beim Interpretieren von Memes ist.

2025-11-09T18:10:24+00:00 ― 6 min Lesedauer

Ton Innovative Ansätze zur Neugestaltung von Musik

Eine neue Methode, um einzigartige Musikversionen zu erstellen, indem vorhandene Stücke umsortiert werden.

2025-11-09T15:31:30+00:00 ― 7 min Lesedauer

Informationsbeschaffung Einführung des SURE-Datensatzes für Einkaufsdialoge

Ein Datensatz, der dazu dient, die Interaktionen zwischen Kunden und Verkäufern in Geschäften zu verbessern.

2025-11-09T10:24:18+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Ein neuer Ansatz für visuelles Fragenbeantworten

Ein modulares Verfahren für Zero-Shot visuelle Fragenbeantwortung vorstellen.

2025-11-08T19:07:54+00:00 ― 5 min Lesedauer

Rechnen und Sprache Aufgaben-Schritte mit Videoanalyse überarbeiten

Eine neue Methode, um die Arbeitsschritte mit Videoeinblicken besser zu organisieren.

2025-11-08T18:04:42+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Qualitätsmessung von Entunschärfung

Verbesserung der Metriken zur Bewertung von Entschärfungsmethoden mit einem neuen Datensatz.

2025-11-08T16:14:06+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Visuelle-Sprach-Modelle mit CLIP-Feedback verbessern

Eine neue Methode verbessert die Vision-Language-Modelle durch Echtzeit-Feedback für bessere Leistung.

2025-11-08T04:38:54+00:00 ― 6 min Lesedauer

Rechnen und Sprache Fortschritte bei Modellen zur Erkennung von Fake News

Neue Modelle verbessern die Erkennung von Fake News mit verschiedenen Datentechniken.

2025-11-08T01:13:30+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Multi-Kamera-Systemen für autonome Fahrzeuge

Occ-BEV verbessert die Fahrzeugwahrnehmung durch Multi-Kamera 3D-Modellierung und Datenintegration.

2025-11-07T14:57:18+00:00 ― 6 min Lesedauer

Kryptographie und Sicherheit Analyse der J-UNIWARD-Methode und ihrer Fehler

Ein Blick auf die Nachrichtverstecktechnik von J-UNIWARD und seinen kleinen Rechenfehler.

2025-11-06T17:05:54+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Vorurteile bei der visuellen Frage-Antwortung ansprechen

Ein neuer Ansatz bekämpft Sprach- und Sichtbiais in VQA-Systemen.

2025-11-06T14:27:54+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der Kompressionsqualität von 3D-Punktwolken

Eine Methode zur Verbesserung von komprimierten 3D-Punktwolkendaten mithilfe fortschrittlicher neuronaler Netzwerke.

2025-11-06T06:33:54+00:00 ― 6 min Lesedauer

Maschinelles Lernen Fortschritt im multimodalen Lernen mit C-MCR

C-MCR vereinfacht das multimodale Lernen, indem es vorhandenes Wissen effizient verknüpft.

2025-11-05T03:49:55+00:00 ― 6 min Lesedauer

Ton Klangsynthetik vereinfachen mit NAS-FM

Eine neue Methode zur Erstellung von Synthesizern, die Musiker unterstützt.

2025-11-04T17:18:20+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Do-GOOD Benchmark: Verbesserung von Modellen zum Verständnis von Dokumenten

Neuer Benchmark zeigt Leistungsunterschiede bei Dokumentenverarbeitungsmodellen.

2025-11-04T02:17:36+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der panoramischen semantischen Segmentierung

Neues Modell verbessert die Analyse von Panoramabildern für reale Anwendungen.

2025-11-04T00:19:06+00:00 ― 5 min Lesedauer

Mensch-Computer-Interaktion LoopBoxes: Eine neue Art, Musik zu machen

LoopBoxes hilft Kindern, ganz einfach und gemeinsam Musik zu machen.

2025-11-03T08:55:00+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Herausforderungen bei der Text-Video-Suche und Lösungen

Ein Blick auf Vorurteile bei der Text-Video-Suche und Möglichkeiten, die Genauigkeit zu verbessern.

2025-11-03T00:45:00+00:00 ― 6 min Lesedauer

Ton Fortschritte bei der Audio-Klassifikationstechniken

Eine neuartige Methode verbessert die Audio-Klassifizierung, indem sie neue Geräusche effizient lernt.

2025-10-31T22:37:00+00:00 ― 5 min Lesedauer

Multimedia 360TripleView: Verbesserung des 360-Grad-Videopanoramas

Ein neues System verbessert die Auswahl der Blickrichtung in 360-Grad-Videos.

2025-10-31T20:44:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung GeneCIS: Fortschritt in der bedingten Bildähnlichkeit in der Computer Vision

Ein Benchmark zur Bewertung der Ähnlichkeit von Bildern basierend auf benutzerdefinierten Bedingungen.

2025-10-31T19:09:42+00:00 ― 7 min Lesedauer

Ton Fortschritte beim Audio-Fragen beantworten mit dem MWAFM-Modell

Ein neues Modell verbessert, wie Maschinen Audiofragen verstehen und darauf reagieren.

2025-10-31T18:34:05+00:00 ― 6 min Lesedauer

Multimedia Aktives Lernen in multimodalen Daten ausbalancieren

Eine neue Strategie sorgt für eine gleiche Vertretung der Datentypen im maschinellen Lernen.

2025-10-31T02:02:42+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei Techniken zur Video-Kopiererkennung

Ein neuer Datensatz stellt Methoden zur Erkennung von verändertem Videoinhalt in Frage.

2025-10-30T18:16:36+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Die Fortschritte in der Fernerkundung mit RS5M und DVLM

Ein neuer Datensatz und ein Modell verbessern die Analyse von Fernerkundungsbildern.

2025-10-29T03:49:48+00:00 ― 6 min Lesedauer

Multimedia Optimierung der Video Speicherung für Katarakt-Operationen

Forschung zeigt effektive Methoden zur Kompression von Katarakt-Chirurgie-Videos für ein besseres Speichermanagement.

2025-10-28T02:25:06+00:00 ― 5 min Lesedauer

Ton Musik mit BERT analysieren: Ein neuer Ansatz

Forschung untersucht BERTs Potenzial in der Analyse von Musik auf Barkebene.

2025-10-27T07:41:05+00:00 ― 5 min Lesedauer

Ton Fortschrittliche Melodienharmonisierung mit emotionalem Kontext

Ein neues Modell verbessert die Melodienharmonisierung, indem es emotionale Faktoren berücksichtigt.

2025-10-26T21:58:05+00:00 ― 6 min Lesedauer

Multimedia Fortschritte in der Video-Kompressionstechnologie

Eine neue Methode verbessert die Videokompression und hält dabei Qualität und Effizienz hoch.

2025-10-26T05:46:25+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der Lebensmittelinstanzsegmentierung mit smarter Beschilderung

Ein neues Framework senkt die manuellen Labeling-Kosten bei der Segmentierung von Lebensmittelbildern.

2025-10-25T23:35:42+00:00 ― 6 min Lesedauer

Informationsbeschaffung Ein neues Framework für multimodale Empfehlungen

Dieses Framework optimiert die Datenverarbeitung für bessere Empfehlungssysteme.

2025-10-25T18:59:12+00:00 ― 6 min Lesedauer

Multimedia Verbesserung der Video-Encoding-Effizienz mit neuen Techniken

Eine neue Methode beschleunigt die Video-Encoding und hält dabei die Qualität.

2025-10-25T14:30:36+00:00 ― 5 min Lesedauer