Computer Science - Multimedia

RSS

Human-Computer Interaction MetaDigiHuman: A New Way to Connect in the Metaverse

Exploring digital humans and haptic interfaces for immersive interactions.

2025-06-18T20:09:42+00:00 ― 5 min read

Image and Video Processing Improving Video Data Transmission Through Smart Predictions

New methods enhance video transmission by predicting missing data effectively.

2025-06-18T18:03:35+00:00 ― 5 min read

Sound Dynamic Background Music Generation for Interactive Media

A framework for real-time music adjustment in games and films.

2025-06-18T10:46:20+00:00 ― 5 min read

Multimedia Advances in Generative Face Video Coding

MRDAC improves face video quality and compression using multiple reference frames.

2025-06-18T07:23:24+00:00 ― 6 min read

Sound Using Ultrasonic Sounds for Indoor Distance Measurement

Researchers explore ultrasonic echoes for accurate distance measurements in quiet indoor settings.

2025-06-18T04:17:40+00:00 ― 6 min read

Computer Vision and Pattern Recognition The Role of Shadows in Image Processing

Exploring shadow detection, removal, and generation in computer vision.

2025-06-17T23:21:30+00:00 ― 7 min read

Computer Vision and Pattern Recognition Improving Image Clarity in Bad Weather

A new method enhances image quality during adverse weather using language and vision models.

2025-06-17T23:05:42+00:00 ― 5 min read

Multimedia A New Framework for Privacy in Mobile Cloud Computing

This framework enhances multimedia app efficiency while protecting user privacy.

2025-06-17T15:51:12+00:00 ― 7 min read

Computation and Language LongLLaVA: A New Era in Image Processing

LongLLaVA improves multi-image understanding for various applications.

2025-06-17T07:57:12+00:00 ― 5 min read

Computer Vision and Pattern Recognition SegTalker: Advancing Talking Face Technology

SegTalker enhances talking face videos with realistic textures and easy editing.

2025-06-16T15:21:48+00:00 ― 5 min read

Computer Vision and Pattern Recognition HiSC4D: A New Approach to Motion Capture

HiSC4D captures human movement using wearable sensors for better interaction analysis.

2025-06-16T02:27:36+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancing Question-Answering for Dense Video Events

Introducing a method to improve question-answering in videos with multiple events.

2025-06-16T02:19:42+00:00 ― 6 min read

Sound Advancements in Audio-Visual Speaker Diarization

An overview of audio-visual speaker diarization methods, challenges, and systems.

2025-06-15T21:14:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Advancements in Vision-Language Model Performance

This work enhances vision-language models through improved data strategies and innovative techniques.

2025-06-15T18:02:00+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancing Visual Grounding with MMCA

A new method improves object identification in images through tailored visual and text integration.

2025-06-15T09:12:42+00:00 ― 5 min read

Multimedia Improving Meme Classification with SimCLIP

SimCLIP enhances meme analysis by effectively combining text and images.

2025-06-15T01:42:24+00:00 ― 6 min read

Computer Vision and Pattern Recognition Identifying the Most Important Person in Social Images

MIP-GAF dataset helps analyze social dynamics in images.

2025-06-14T02:24:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition Improving Vision-Language Models with Compositional Alignment

A new approach refines the connection between images and text in VLMs.

2025-06-13T05:12:12+00:00 ― 5 min read

Sound Connecting Art and Music Through Emotions

Research links paintings to music by interpreting emotions.

2025-06-12T23:35:50+00:00 ― 6 min read

Multimedia New Method for Detecting Human Emotions

A study reveals a new way to identify emotions using video, sound, and text.

2025-06-12T23:24:36+00:00 ― 5 min read

Computer Vision and Pattern Recognition Enhancing Speech Recognition with Multiple Input Types

This article explores how varied inputs can boost speech recognition accuracy.

2025-06-12T15:30:00+00:00 ― 5 min read

Audio and Speech Processing Transforming Music Education with LLaQo

LLaQo offers detailed feedback for music performance assessment, enhancing student learning.

2025-06-12T02:32:40+00:00 ― 5 min read

Networking and Internet Architecture Starlink and the Future of Video Streaming

Exploring how Starlink influences video streaming globally.

2025-06-11T20:33:00+00:00 ― 5 min read

Sound The Growing Role of AI in Music Creation

Artificial intelligence is reshaping music with new tools and approaches.

2025-06-11T07:55:15+00:00 ― 6 min read

Networking and Internet Architecture Advancements in Congestion Control for Video Streaming

Improving real-time communication through new congestion control methods.

2025-06-11T02:22:48+00:00 ― 6 min read

Sound Advancements in Video-to-Audio Generation

New methods improve audio synchronization with changing video scenes.

2025-06-10T20:35:05+00:00 ― 4 min read

Computation and Language NVLM: Advancing Multimodal AI Understanding

NVLM enhances AI's grasp of language and visuals for diverse tasks.

2025-06-10T18:52:30+00:00 ― 5 min read

Computation and Language Token Reduction Method Improves Efficiency in MLLMs

TRIM method reduces image tokens in multi-modal language models while maintaining performance.

2025-06-10T11:06:24+00:00 ― 5 min read

Computation and Language The Role of Large Language Models in Cross-Modal Reasoning

Exploring how LLMs improve reasoning across various data types.

2025-06-10T08:52:06+00:00 ― 7 min read

Sound PDMX: A New Resource for AI Music Research

PDMX offers a vast collection of public domain symbolic music for AI development.

2025-06-10T08:26:20+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancing Human Motion Generation with MoRAG

MoRAG enhances human motion generation from text descriptions using part-specific retrieval.

2025-06-10T02:25:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Introducing InfiMM-WebMath-40B: A New Dataset for Multimodal Mathematical Reasoning

A new dataset aims to enhance multimodal reasoning in language models.

2025-06-09T06:24:12+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in 3D Reverse Engineering Techniques

Improved methods for boundary detection enhance CAD modeling from 3D scans.

2025-06-08T08:56:30+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancing Video Question Answering with Grounded Text

A new approach enhances video question answering through scene text recognition.

2025-06-07T23:04:00+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Audio-Visual Speech Recognition

Llama-AVSR merges audio and visual inputs for enhanced speech recognition accuracy.

2025-06-07T18:05:25+00:00 ― 6 min read

Computer Vision and Pattern Recognition Automating Dance Camera Movements with DanceCamAnimator

A new system for creating dance camera movements synchronized with music.

2025-06-07T09:14:30+00:00 ― 4 min read

Computer Vision and Pattern Recognition AIM 2024 Challenge: Video Saliency Prediction

Teams compete to improve methods for predicting video attention.

2025-06-07T07:39:42+00:00 ― 5 min read

Computer Vision and Pattern Recognition Layer-Wise Model Merging for Enhanced Segmentation Performance

A new method combining models to improve unsupervised domain adaptation in segmentation tasks.

2025-06-06T10:59:24+00:00 ― 5 min read

Computer Vision and Pattern Recognition V-AURA: Advancing Video-to-Audio Integration

A new model creates audio that matches video, enhancing media experiences.

2025-06-05T23:59:05+00:00 ― 4 min read

Computer Vision and Pattern Recognition Advancing Video-Language Understanding with DataFlywheel

A new framework enhances video-language dataset quality through iterative refinement.

2025-06-03T23:12:48+00:00 ― 5 min read