Computerwissenschaften - Multimedia

RSS

Multimedia Die Bewertung der Qualität von Online-Kursen mit VCEval

VCEval bietet eine automatisierte Möglichkeit, die Effektivität von Online-Kursen zu bewerten.

2025-07-28T10:39:48+00:00 ― 5 min Lesedauer

Multimedia Neues Modell verbessert die Erkennung von Highlights beim Live-Streaming

Ein multimodaler Ansatz verbessert, wie Höhepunkte in Live-Streams erkannt werden.

2025-07-28T10:24:00+00:00 ― 6 min Lesedauer

Ton Ein neues Werkzeug zur Musikvisualisierung

Dieses Papier präsentiert ein System zur Erstellung von visuellen Darstellungen, die auf Musik reagieren.

2025-07-26T10:31:10+00:00 ― 8 min Lesedauer

Informationsbeschaffung Fortschritte bei cross-lingualen und cross-modal Retrieval-Techniken

Eine neue Methode verbessert die Bild- und Textextraktion über mehrere Sprachen hinweg.

2025-07-23T21:54:24+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Die Rolle von Diffusionsmodellen im Videoediting

Entdecke, wie Diffusionsmodelle das Video-Editing durch KI-Technologie verändern.

2025-07-23T18:13:12+00:00 ― 5 min Lesedauer

Multimedia Analyse der Beliebtheit in sozialen Medien: Text-Image-Mismatch

Forschung zeigt, dass die Inkonsistenz zwischen Text und Bild mit der Beliebtheit von Posts in sozialen Medien steigt.

2025-07-22T14:26:18+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Audiogenerierung mit dem Sound-VECaps-Datensatz

Neuer Datensatz verbessert die Audioerzeugung aus detaillierten Textbeschreibungen.

2025-07-21T07:26:30+00:00 ― 5 min Lesedauer

Multimedia OpenVNA: Fortschritte beim Sprachverständnis in Lärm

Ein neues Tool zum Testen von Sprachmodellen in lauten Umgebungen.

2025-07-21T05:23:24+00:00 ― 4 min Lesedauer

Multimedia Verbesserung der Referenzgitter-Extraktion aus zeitvariierenden Formen

Eine neue Methode zur Erstellung saubererer Referenznetze aus dynamischen 3D-Formen.

2025-07-20T22:24:42+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der schwach überwachten Segmentierung von Bezugsausdrücken

Eine neue Methode verringert den Bedarf an beschrifteten Daten in Aufgaben der Computer Vision.

2025-07-20T20:57:48+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Neue Methode zur Erstellung von Sound aus Video und Text

Dieser Artikel stellt eine Methode vor, um präzisen Sound aus Videos und Text zu erzeugen.

2025-07-20T16:03:25+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschritte in der Dokumentenverarbeitung mit LayTextLLM

Wir stellen ein neues Modell vor, das Text und Layout effizient kombiniert, um das Verständnis von Dokumenten zu verbessern.

2025-07-20T12:48:00+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung KeyVideoLLM: Verbesserung des Video-Datenmanagements

Eine neue Methode verbessert das Management von Videodaten für ein besseres Verständnis und mehr Effizienz.

2025-07-20T06:52:30+00:00 ― 6 min Lesedauer

Mensch-Computer-Interaktion Fortschritte bei Mobile AI mit dem AMEX-Datensatz

Das AMEX-Dataset verbessert das Verständnis von KI für mobile App-Oberflächen.

2025-07-20T00:09:36+00:00 ― 7 min Lesedauer

Ton Neue Datensätze zur Erkennung von Musikemotionen

Wir stellen MERGE-Datensätze vor, um die Emotionserkennung in Musik zu verbessern.

2025-07-19T20:37:25+00:00 ― 6 min Lesedauer

Multimedia Videospiele als Werkzeuge zum Lernen von Programmierfähigkeiten

Erforschen, wie Videospiele wichtige Programmierfähigkeiten effektiv und spannend vermitteln können.

2025-07-19T06:31:00+00:00 ― 6 min Lesedauer

Multimedia Fortschritte im audio-visuellen Zero-Shot-Lernen

Ton und Bilder kombinieren für schlauere Erkennungssysteme.

2025-07-18T21:08:30+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Videos erstellen leicht gemacht mit dem VCoME Framework

VCoME hilft Nutzern, ganz einfach ansprechende Sprachvideos zu erstellen.

2025-07-18T18:32:06+00:00 ― 5 min Lesedauer

Ton Fortschritte in der Video-zu-Audio-Generierungstechnologie

Forscher wollen Sounds kreieren, die zu stillen Videos passen, um das Seherlebnis zu verbessern.

2025-07-18T12:14:05+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung der visuellen Fragenstellung mit doppelten Hinweisen

Ein neuer Ansatz verbessert die Klarheit von Fragen, die aus Bildern erstellt werden.

2025-07-18T06:17:24+00:00 ― 7 min Lesedauer

Kryptographie und Sicherheit Digitale Signaturen in CSV-Dateien einbetten

Lern, wie man CSV-Daten mit digitalen Signaturen sichert.

2025-07-18T03:15:42+00:00 ― 5 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in Techniken zur Abfrage zusammengesetzter Bilder

Diese Methode verbessert die Bildsuche, indem sie Bilder und Texte effektiv kombiniert.

2025-07-17T08:26:00+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung LeRF vorstellen: Ein neuer Weg, Bilder zu skalieren

LeRF kombiniert Deep Learning und Interpolation für besseres Bildvergrössern.

2025-07-16T22:59:15+00:00 ― 7 min Lesedauer

Bild- und Videoverarbeitung KI hilft Radiologen bei der Analyse von Brust-Röntgenbildern

Neues KI-Modell verbessert die Interpretation von Röntgenbildern des Brustkorbs für genauere Diagnosen.

2025-07-16T07:36:10+00:00 ― 7 min Lesedauer

Rechnen und Sprache Fortschrittliche Social-Media-Inhaltserstellung mit KI

Eine neue Methode, um mit KI ansprechende Inhalte für soziale Medien zu erstellen.

2025-07-15T21:48:18+00:00 ― 7 min Lesedauer

Ton BandControlNet: Ein neuer Ansatz für die Musikkreation

Entdecke, wie KI die Musikproduktion mit BandControlNet verändert.

2025-07-15T19:27:25+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Neue Methode zur Erkennung von Deepfakes

Ein neuer Ansatz verbessert die Deepfake-Erkennung durch audio-visuelle Analyse.

2025-07-15T12:10:10+00:00 ― 5 min Lesedauer

Ton Verbesserung der Stottererkennung mit MMSD-Net

Ein neues Verfahren verbessert die Stottererkennung, indem es Audio-, Video- und Textdaten kombiniert.

2025-07-15T07:18:40+00:00 ― 6 min Lesedauer

Multimedia Fortschritte bei der Schallquellenlokalisierung durch audio-visuelle Integration

Eine Studie zur Verbesserung der Klangquellenlokalisierung durch bessere Nutzung von Audio- und visuellen Informationen.

2025-07-14T06:12:35+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Fortschritte in der Geschichtenerstellung mit TemporalStory

TemporalStory verbessert die Bildgenerierung für Geschichtenerzählen, indem es Kohärenz und Kontext verbessert.

2025-07-13T23:59:06+00:00 ― 5 min Lesedauer

Ton Die Auswirkungen von KI auf die Originalität in der Musik bewerten

Ein neues Tool zur Bewertung von Replikationen in KI-generierter Musik.

2025-07-13T12:23:45+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Bildklarheit durch Entnebelungstechniken verbessern

Ein Blick auf Methoden zur Verbesserung der Bildqualität, die durch Dunst beeinträchtigt ist.

2025-07-12T23:26:25+00:00 ― 7 min Lesedauer

Computer Vision und Mustererkennung Neuer Datensatz geht die Herausforderungen von Bildfälschungen an

Der TGIF-Datensatz hilft dabei, fortgeschrittene Bildmanipulationstechniken zu erkennen.

2025-07-12T07:49:36+00:00 ― 5 min Lesedauer

Audio- und Sprachverarbeitung Die Rundfunkwelt mit IP-Technologie und Audio-Tagging umkrempeln

Lern, wie IP-Broadcasting und Audio-Tagging die Bereitstellung von Inhalten verändern.

2025-07-12T05:37:35+00:00 ― 5 min Lesedauer

Computer und Gesellschaft Online-Marketing mit KI-Einblicken optimieren

KI integrieren, um Marketingstrategien und Kampagneneffektivität zu verbessern.

2025-07-12T01:38:18+00:00 ― 6 min Lesedauer

Computer Vision und Mustererkennung Verbesserung des visuellen Verständnisses in Sprachmodellen

X-Former verbessert, wie Modelle Bild- und Textverständnis kombinieren.

2025-07-11T06:40:42+00:00 ― 9 min Lesedauer

Computer Vision und Mustererkennung Umgang mit aus dem Kontext gerissenen Fehlinformationen im digitalen Zeitalter

Falsche Infos mit neuen Methoden und Technologien bekämpfen.

2025-07-10T22:46:42+00:00 ― 5 min Lesedauer

Rechnen und Sprache Fortgeschrittene Techniken zur Erkennung von Fehlinformationen

Ein neues System, das Text- und Bildanalyse kombiniert, um Desinformationen zu bekämpfen.

2025-07-10T07:30:18+00:00 ― 5 min Lesedauer

Multimedia Effizienzsteigerung in multimodalen Modellen mit RoE

Neue Methode RoE verbessert die Effizienz von multimodalen grossen Sprachmodellen mit dynamischem Routing.

2025-07-10T02:38:00+00:00 ― 8 min Lesedauer

Computer Vision und Mustererkennung Fortschritte bei der Erzeugung von 360-Grad-Video-Frames

Wir stellen 360VFI vor für bessere 360-Grad Videoqualität und Erlebnis.

2025-07-10T01:42:42+00:00 ― 5 min Lesedauer