Computer Science - Multimedia

RSS

Computer Vision and Pattern Recognition Combatting Identity Fraud with IDNet Dataset

A new dataset supports better tools for detecting identity document fraud.

2025-07-02T17:40:24+00:00 ― 7 min read

Computation and Language Introducing MMPKUBase: A Chinese Knowledge Graph

MMPKUBase provides over 52,000 Chinese subjects with rich images.

2025-07-02T17:32:30+00:00 ― 5 min read

Sound Revolutionizing Music Creation with TEAdapter

TEAdapter enhances music generation from text, providing users greater control and creativity.

2025-07-02T17:17:05+00:00 ― 4 min read

Computer Vision and Pattern Recognition Introducing SynopGround: A New Approach to Video Grounding

A novel dataset and method enhance video grounding for complex narratives.

2025-07-02T17:08:48+00:00 ― 8 min read

Computer Vision and Pattern Recognition Advancing Deepfake Detection with MkfaNet

A new method enhances the detection of facial deepfakes.

2025-07-02T17:00:54+00:00 ― 5 min read

Computer Vision and Pattern Recognition Lighthouse: A Tool for Video Moment Retrieval and Highlight Detection

Lighthouse simplifies video moment retrieval and highlight detection for researchers.

2025-07-02T07:08:24+00:00 ― 5 min read

Sound Advancements in Audio Source Separation with RQ-VAE

New machine learning model enhances audio source separation techniques.

2025-07-02T05:08:20+00:00 ― 5 min read

Sound New Method Improves Speech Clarity in Smart Glasses

A system to enhance speech clarity in noisy environments using smart glasses.

2025-07-02T02:42:35+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Dataset Aims to Enhance Cooking Video Analysis

COM Kitchens provides unedited cooking videos to study food preparation processes.

2025-07-01T20:28:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition ReSyncer: A New Approach to Lip-Syncing

ReSyncer improves video quality and flexibility for lip movements synchronized to audio.

2025-07-01T12:18:42+00:00 ― 5 min read

Computer Vision and Pattern Recognition Neural Tuning: A New Approach for Multitask Learning

Introducing neural tuning to improve large models' multitask capabilities effectively.

2025-07-01T09:09:06+00:00 ― 6 min read

Multimedia Advancements in E-Commerce Product Retrieval

A new method enhances product searches across different media formats.

2025-07-01T08:45:24+00:00 ― 6 min read

Computer Vision and Pattern Recognition Improving Deepfake Detection with Fine Details

A new approach focuses on subtle inconsistencies in deepfake detection.

2025-07-01T04:02:15+00:00 ― 6 min read

Multimedia MetaDragonBoat: A Virtual Dive into Cultural Heritage

Experience the Dragon Boat Festival through innovative virtual paddling techniques.

2025-07-01T01:54:36+00:00 ― 7 min read

Artificial Intelligence HiQuE: A New Approach to Detecting Depression

Introducing a framework that improves depression detection through structured interviews.

2025-06-30T20:14:54+00:00 ― 5 min read

Computer Vision and Pattern Recognition Concept Conductor: A New Approach to Image Generation

A fresh method for creating clear images from complex text prompts.

2025-06-30T20:07:00+00:00 ― 5 min read

Multimedia Utilizing Images for Event Forecasting

Combining images and text enhances predictions of future events.

2025-06-30T08:47:36+00:00 ― 7 min read

Multimedia The Art of Song Sequencing in Albums

This article examines how song order impacts listening experiences in music albums.

2025-06-30T08:31:48+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancements in Human Activity Recognition Using Mu-MAE

Mu-MAE introduces new methods for recognizing human activities through multiple data sources.

2025-06-30T05:53:48+00:00 ― 7 min read

Artificial Intelligence Addressing Hate Speech in Memes with HateSieve

A new system targets hate speech in memes effectively.

2025-06-29T11:12:00+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancing 3D Motion Generation from Casual Videos

ViMo technique transforms everyday videos into realistic 3D movements.

2025-06-29T07:54:30+00:00 ― 7 min read

Information Theory Navigating Challenges in Wireless Multi-User Interactive VR

Explore the advancements and challenges in wireless VR technology for multiple users.

2025-06-29T01:07:44+00:00 ― 6 min read

Computer Vision and Pattern Recognition ExpoMamba: Transforming Low-Light Image Enhancement

A new model for faster and effective low-light image enhancement.

2025-06-28T21:47:10+00:00 ― 5 min read

Computer Vision and Pattern Recognition Assessing Depth Quality in 3D Images for VR

A new method to measure depth perception in 3D VR images.

2025-06-28T11:15:35+00:00 ― 7 min read

Multimedia Analyzing Global News Through Video Content

A method for summarizing videos from different cultures and news sources.

2025-06-28T03:36:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Simplifying 3D Scene Editing with 2D Images

A new method streamlines 3D scene editing using just one 2D image.

2025-06-27T23:54:48+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Multi-task Adversarial Attacks on Face Authentication Systems

A new method targets multiple face authentication systems efficiently.

2025-06-27T11:00:36+00:00 ― 8 min read

Sound Video-Foley: Transforming Sound Design in Multimedia

An innovative system automates sound generation for films and games.

2025-06-26T23:37:55+00:00 ― 8 min read

Computer Vision and Pattern Recognition Harmonizing Attention: A New Approach to Image Blending

Learn how Harmonizing Attention improves image blending by focusing on geometry and texture.

2025-06-26T03:32:30+00:00 ― 6 min read

Computer Vision and Pattern Recognition Improving Pupil Size Measurement from Webcam Images

Enhancing image quality leads to better pupil size assessments.

2025-06-26T00:30:48+00:00 ― 5 min read

Multimedia Rethinking Audio-Visual Source Localization Benchmarks

Current benchmarks misjudge models' ability to connect audio and visual data.

2025-06-25T16:03:10+00:00 ― 5 min read

Computation and Language AI Takes a Lead in Animation Production

Automation in animation creation opens new pathways for storytelling and visuals.

2025-06-25T13:58:48+00:00 ― 6 min read

Sound Challenges in Detecting Partially Fake Speech Signals

A look into the complexities of identifying mixed audio tracks.

2025-06-25T06:20:10+00:00 ― 6 min read

Sound StyleSpeech: The Future of Text-to-Speech Technology

StyleSpeech advances TTS systems by capturing natural speech nuances.

2025-06-24T14:08:30+00:00 ― 6 min read

Multimedia Cap2Sum: A New Approach to Video Summarization

Cap2Sum uses dense video captions to improve video summarization efficiency and effectiveness.

2025-06-23T23:55:42+00:00 ― 7 min read

Computation and Language Introducing MaVEn: A New Approach to Multi-Image Understanding

MaVEn enhances AI's ability to process multiple images for better reasoning.

2025-06-23T15:38:00+00:00 ― 5 min read

Sound Artificial Intelligence and the Future of Music Creation

AI is reshaping how music is composed and experienced.

2025-06-23T08:10:55+00:00 ― 6 min read

Multimedia Balancing Emotions: A New Approach in ERC

A new method improves emotion recognition in conversations using multiple data sources.

2025-06-23T01:01:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Method for Text-3D Retrieval Using RMARN

Introducing RMARN: an innovative approach to connect text and 3D data.

2025-06-22T22:23:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition SceneDreamer360: Advancing 3D Scene Creation from Text

A new method transforms text into detailed 3D scenes seamlessly.

2025-06-22T22:15:12+00:00 ― 6 min read