Computer Science - Multimedia

RSS

Multimedia Cap2Sum: A New Approach to Video Summarization

Cap2Sum uses dense video captions to improve video summarization efficiency and effectiveness.

2025-06-23T23:55:42+00:00 ― 7 min read

Computation and Language Introducing MaVEn: A New Approach to Multi-Image Understanding

MaVEn enhances AI's ability to process multiple images for better reasoning.

2025-06-23T15:38:00+00:00 ― 5 min read

Sound Artificial Intelligence and the Future of Music Creation

AI is reshaping how music is composed and experienced.

2025-06-23T08:10:55+00:00 ― 6 min read

Multimedia Balancing Emotions: A New Approach in ERC

A new method improves emotion recognition in conversations using multiple data sources.

2025-06-23T01:01:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Method for Text-3D Retrieval Using RMARN

Introducing RMARN: an innovative approach to connect text and 3D data.

2025-06-22T22:23:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition SceneDreamer360: Advancing 3D Scene Creation from Text

A new method transforms text into detailed 3D scenes seamlessly.

2025-06-22T22:15:12+00:00 ― 6 min read

Computer Vision and Pattern Recognition Creating an Open Metaverse for All

A new approach to building accessible virtual spaces using WebXR and A-Frame.

2025-06-22T18:26:06+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Visual Document Understanding with SynthDoc

SynthDoc creates synthetic documents for machine learning in document reading.

2025-06-22T09:13:06+00:00 ― 6 min read

Multimedia New Method for Predicting Emotions in Videos

This study presents a model to analyze emotional reactions to video content.

2025-06-21T12:56:30+00:00 ― 7 min read

Audio and Speech Processing Combining Voice and Face for Better Identity Recognition

This article discusses the benefits of merging voice and facial recognition systems.

2025-06-21T08:24:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition Simplifying RGBA Image Generation with Alfie

A new method for creating RGBA images easily and effectively.

2025-06-21T06:45:12+00:00 ― 7 min read

Computer Vision and Pattern Recognition Kangaroo: A New Approach to Video Understanding

Kangaroo improves video analysis by integrating visuals, sounds, and text effectively.

2025-06-20T14:33:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition A New Approach to Referring Image Segmentation

This paper presents a single-encoder model for improved image segmentation based on text descriptions.

2025-06-20T14:09:48+00:00 ― 6 min read

Sound Advancements in Target Speaker Extraction Technology

New methods improve voice separation in noisy environments.

2025-06-20T13:47:05+00:00 ― 5 min read

Computer Vision and Pattern Recognition Improving Image Captioning with Causal Inference

A new framework enhances image captioning accuracy and reduces errors.

2025-06-20T09:09:36+00:00 ― 5 min read

Multimedia Advancing Multimodal Interaction Systems

Improving how machines assist users through better interaction and response measures.

2025-06-19T23:48:42+00:00 ― 5 min read

Human-Computer Interaction MetaDigiHuman: A New Way to Connect in the Metaverse

Exploring digital humans and haptic interfaces for immersive interactions.

2025-06-18T20:09:42+00:00 ― 5 min read

Image and Video Processing Improving Video Data Transmission Through Smart Predictions

New methods enhance video transmission by predicting missing data effectively.

2025-06-18T18:03:35+00:00 ― 5 min read

Sound Dynamic Background Music Generation for Interactive Media

A framework for real-time music adjustment in games and films.

2025-06-18T10:46:20+00:00 ― 5 min read

Multimedia Advances in Generative Face Video Coding

MRDAC improves face video quality and compression using multiple reference frames.

2025-06-18T07:23:24+00:00 ― 6 min read

Sound Using Ultrasonic Sounds for Indoor Distance Measurement

Researchers explore ultrasonic echoes for accurate distance measurements in quiet indoor settings.

2025-06-18T04:17:40+00:00 ― 6 min read

Computer Vision and Pattern Recognition The Role of Shadows in Image Processing

Exploring shadow detection, removal, and generation in computer vision.

2025-06-17T23:21:30+00:00 ― 7 min read

Computer Vision and Pattern Recognition Improving Image Clarity in Bad Weather

A new method enhances image quality during adverse weather using language and vision models.

2025-06-17T23:05:42+00:00 ― 5 min read

Multimedia A New Framework for Privacy in Mobile Cloud Computing

This framework enhances multimedia app efficiency while protecting user privacy.

2025-06-17T15:51:12+00:00 ― 7 min read

Computation and Language LongLLaVA: A New Era in Image Processing

LongLLaVA improves multi-image understanding for various applications.

2025-06-17T07:57:12+00:00 ― 5 min read

Computer Vision and Pattern Recognition SegTalker: Advancing Talking Face Technology

SegTalker enhances talking face videos with realistic textures and easy editing.

2025-06-16T15:21:48+00:00 ― 5 min read

Computer Vision and Pattern Recognition HiSC4D: A New Approach to Motion Capture

HiSC4D captures human movement using wearable sensors for better interaction analysis.

2025-06-16T02:27:36+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancing Question-Answering for Dense Video Events

Introducing a method to improve question-answering in videos with multiple events.

2025-06-16T02:19:42+00:00 ― 6 min read

Sound Advancements in Audio-Visual Speaker Diarization

An overview of audio-visual speaker diarization methods, challenges, and systems.

2025-06-15T21:14:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Advancements in Vision-Language Model Performance

This work enhances vision-language models through improved data strategies and innovative techniques.

2025-06-15T18:02:00+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancing Visual Grounding with MMCA

A new method improves object identification in images through tailored visual and text integration.

2025-06-15T09:12:42+00:00 ― 5 min read

Multimedia Improving Meme Classification with SimCLIP

SimCLIP enhances meme analysis by effectively combining text and images.

2025-06-15T01:42:24+00:00 ― 6 min read

Computer Vision and Pattern Recognition Identifying the Most Important Person in Social Images

MIP-GAF dataset helps analyze social dynamics in images.

2025-06-14T02:24:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition Improving Vision-Language Models with Compositional Alignment

A new approach refines the connection between images and text in VLMs.

2025-06-13T05:12:12+00:00 ― 5 min read

Sound Connecting Art and Music Through Emotions

Research links paintings to music by interpreting emotions.

2025-06-12T23:35:50+00:00 ― 6 min read

Multimedia New Method for Detecting Human Emotions

A study reveals a new way to identify emotions using video, sound, and text.

2025-06-12T23:24:36+00:00 ― 5 min read

Computer Vision and Pattern Recognition Enhancing Speech Recognition with Multiple Input Types

This article explores how varied inputs can boost speech recognition accuracy.

2025-06-12T15:30:00+00:00 ― 5 min read

Audio and Speech Processing Transforming Music Education with LLaQo

LLaQo offers detailed feedback for music performance assessment, enhancing student learning.

2025-06-12T02:32:40+00:00 ― 5 min read

Networking and Internet Architecture Starlink and the Future of Video Streaming

Exploring how Starlink influences video streaming globally.

2025-06-11T20:33:00+00:00 ― 5 min read

Sound The Growing Role of AI in Music Creation

Artificial intelligence is reshaping music with new tools and approaches.

2025-06-11T07:55:15+00:00 ― 6 min read