Computer Science - Multimedia

RSS

Image and Video Processing Advancements in Image Compression Techniques

A new method improves image compression for diverse image types.

2025-09-25T16:58:30+00:00 ― 7 min read

Computer Vision and Pattern Recognition Addressing Frame Length Bias in Video Retrieval

This article discusses frame length bias in text-video retrieval and a new approach to address it.

2025-09-25T15:12:54+00:00 ― 6 min read

Computer Vision and Pattern Recognition Recognizing Body Language in Group Interactions

A new method improves how tech detects human behavior in group settings.

2025-09-24T16:34:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition Improving CLIP's Reliability with LP-CLIP

Learn how LP-CLIP enhances the robustness of multi-modal models like CLIP.

2025-09-24T12:21:18+00:00 ― 5 min read

Computation and Language New Dataset Revolutionizes K-pop Lyric Translation

A ground-breaking dataset aids the study of K-pop lyric translation.

2025-09-24T08:24:18+00:00 ― 7 min read

Machine Learning Audiovisual Moments in Time: A New Dataset for Action Recognition

AVMIT offers researchers insights into how sound and vision relate in action recognition.

2025-09-24T07:46:35+00:00 ― 6 min read

Sound Advancements in Audio Anti-Spoofing Technology

A new method improves detection of fake audio in voice recognition systems.

2025-09-23T23:40:45+00:00 ― 6 min read

Computer Vision and Pattern Recognition Enhancing Video Memorability Through Saliency-Based Cropping

This study examines how cropping can improve video recall by focusing on visual saliency.

2025-09-23T18:03:12+00:00 ― 5 min read

Computer Vision and Pattern Recognition Evaluating Models in Low-Level Vision Tasks

Assessing large models on low-level visual tasks through Q-Bench.

2025-09-22T06:53:54+00:00 ― 5 min read

Computer Vision and Pattern Recognition Combining Sound and Visuals to Improve Audio Quality

A new method enhances sound recordings using visual cues.

2025-09-22T03:57:15+00:00 ― 6 min read

Human-Computer Interaction AI's Role in Digital Storytelling

Exploring the impact of AI-generated content on the art of storytelling.

2025-09-22T02:56:54+00:00 ― 7 min read

Multimedia Linking Emotions in Images to Music Search

A new system connects emotional images to music for improved discovery.

2025-09-21T16:37:05+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Viewport Prediction for Streaming Video

MFTR enhances viewport prediction accuracy for immersive video experiences.

2025-09-21T12:12:06+00:00 ― 6 min read

Human-Computer Interaction Improving Drone Control with Digital Twin Technology

A system to make remote UAV control safer and more reliable using Digital Twin.

2025-09-20T11:28:05+00:00 ― 6 min read

Software Engineering Addressing Bias in Image Generation Models

A new framework identifies and measures bias in image generation systems.

2025-09-19T11:13:18+00:00 ― 8 min read

Computer Vision and Pattern Recognition Advancements in Image Quality with Diffusion Models

Explore how Diffusion Models improve super-resolution in various fields.

2025-09-19T10:33:48+00:00 ― 5 min read

Computer Vision and Pattern Recognition NU-Class Net: Enhancing Video Quality Post-Compression

A new model improves low-quality videos while reducing processing demands.

2025-09-19T05:25:42+00:00 ― 7 min read

Computer Vision and Pattern Recognition A New Method for Assessing Image and Video Quality

SAMA improves image and video quality assessment through effective sampling techniques.

2025-09-19T00:33:24+00:00 ― 5 min read

Information Retrieval Challenges in Learning from Music Videos

This study examines the difficulties of using contrastive learning for music video understanding.

2025-09-18T17:21:45+00:00 ― 6 min read

Computer Vision and Pattern Recognition Revolutionizing Character Eyes in Animation

A new method streamlines the design of animated character eyes.

2025-09-18T14:01:24+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancing Image Compression with Frequency Analysis

A new method improves image compression by focusing on frequency bands.

2025-09-16T14:45:18+00:00 ― 6 min read

Computer Vision and Pattern Recognition Vlogger: A New Tool for Video Creation

Vlogger simplifies video blogging, making it quicker and easier for creators.

2025-09-16T11:12:00+00:00 ― 6 min read

Multimedia The Environmental Costs of Video Streaming

Examining energy use and impact of video streaming on the environment.

2025-09-16T01:59:00+00:00 ― 6 min read

Sound New Model Enhances Fish Feeding Intensity Assessment

A unified approach to assess fish feeding using audio and video data.

2025-09-14T21:03:15+00:00 ― 5 min read

Computer Vision and Pattern Recognition The Impact of AI on Video Technology

Discover how AI is changing video creation and streaming.

2025-09-13T11:18:36+00:00 ― 5 min read

Image and Video Processing Introducing the Video Conferencing Dataset for Real-World Communication

A dataset tailored for testing video quality in conferencing situations.

2025-09-13T03:45:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Framework Connects Video and Text More Effectively

Researchers develop a framework for better video and text understanding.

2025-09-12T20:49:36+00:00 ― 5 min read

Computer Vision and Pattern Recognition Advancements in Audio-Visual Segmentation Techniques

A new method enhances audio-visual segmentation without detailed labels.

2025-09-12T20:28:15+00:00 ― 5 min read

Sound New System Improves Voice Extraction from Unstable Head Positions

PIAVE helps machines extract voices clearly, even when speakers turn their heads.

2025-09-12T19:39:40+00:00 ― 6 min read

Audio and Speech Processing MusiLingo: Bridging Music and Language

A new system that connects music and language for better understanding.

2025-09-11T14:30:40+00:00 ― 6 min read

Multimedia Effective Poster Design Through Simple Metrics

Learn how to design posters that communicate messages clearly and attractively.

2025-09-09T08:49:24+00:00 ― 5 min read

Multimedia BDIQA: Advancing Video Question Answering with Theory of Mind

A new dataset enhances AI's ability to interpret human behavior in videos.

2025-09-09T07:30:24+00:00 ― 7 min read

Human-Computer Interaction Spica: A New Tool for Blind Users

Spica enhances video access for blind and low-vision users through interactivity.

2025-09-09T06:43:00+00:00 ― 4 min read

Robotics Testing Robots for Unexpected Challenges

Exploring methods to improve robot performance in unpredictable environments.

2025-09-09T02:53:54+00:00 ― 4 min read

Sound Advancements in Voice Conversion Technology Using Face Images

New method transforms voices using facial features for diverse applications.

2025-09-09T01:46:55+00:00 ― 8 min read

Audio and Speech Processing Introducing AV-SUPERB: A New Benchmark for Audio-Visual Models

AV-SUPERB evaluates audio and visual models across various tasks for better performance.

2025-09-08T22:32:35+00:00 ― 5 min read

Information Retrieval Improving Video Search with Modern Techniques

A new method simplifies video searching by combining various information types.

2025-09-08T20:50:30+00:00 ― 6 min read

Multimedia Creating Emotion-Sensitive Machines for Better Interaction

Developing machines that respond based on emotions for improved human-computer interaction.

2025-09-08T19:31:30+00:00 ― 6 min read

Sound Faster Text-to-Audio Generation Using Consistency Distillation

New method improves speed and efficiency in Text-to-Audio generation.

2025-09-08T18:29:40+00:00 ― 4 min read

Computer Vision and Pattern Recognition Advancing Sound Source Localization Techniques

Improving the way we identify sound sources using audio-visual data.

2025-09-08T12:49:35+00:00 ― 6 min read