Computer Science - Multimedia

RSS

Computation and Language Advancing Social Media Content Creation with AI

A new method to generate engaging social media content using AI.

2025-07-15T21:48:18+00:00 ― 6 min read

Sound BandControlNet: A New Approach to Music Creation

Discover how AI is transforming music generation with BandControlNet.

2025-07-15T19:27:25+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Method for Detecting Deepfakes

A novel approach improves deepfake detection using audio-visual analysis.

2025-07-15T12:10:10+00:00 ― 5 min read

Sound Improving Stuttering Detection with MMSD-Net

A new method enhances stuttering detection by combining audio, video, and text data.

2025-07-15T07:18:40+00:00 ― 5 min read

Multimedia Advancing Sound Source Localization through Audio-Visual Integration

A study on improving sound source localization by better using audio and visual information.

2025-07-14T06:12:35+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancements in Story Visualization with TemporalStory

TemporalStory improves image generation for storytelling by enhancing coherence and context.

2025-07-13T23:59:06+00:00 ― 5 min read

Sound Evaluating AI's Impact on Music Originality

A new tool to assess replication in AI-made music.

2025-07-13T12:23:45+00:00 ― 7 min read

Computer Vision and Pattern Recognition Improving Image Clarity Through Dehazing Techniques

A look at methods to enhance image quality affected by haze.

2025-07-12T23:26:25+00:00 ― 6 min read

Computer Vision and Pattern Recognition New Dataset Tackles Image Forgery Challenges

The TGIF dataset aids in detecting advanced image manipulation techniques.

2025-07-12T07:49:36+00:00 ― 5 min read

Audio and Speech Processing Transforming Broadcasting with IP Technology and Audio Tagging

Learn how IP broadcasting and audio tagging reshape content delivery.

2025-07-12T05:37:35+00:00 ― 5 min read

Computers and Society Streamlining Online Marketing with AI Insights

Integrating AI to enhance marketing strategies and campaign effectiveness.

2025-07-12T01:38:18+00:00 ― 6 min read

Computer Vision and Pattern Recognition Enhancing Visual Understanding in Language Models

X-Former improves how models combine image and text understanding.

2025-07-11T06:40:42+00:00 ― 8 min read

Computer Vision and Pattern Recognition Addressing Out-of-Context Misinformation in the Digital Age

Combatting misleading information through new methods and technologies.

2025-07-10T22:46:42+00:00 ― 4 min read

Computation and Language Advanced Techniques for Misinformation Detection

A new system combining text and image analysis to fight misinformation.

2025-07-10T07:30:18+00:00 ― 5 min read

Multimedia Improving Efficiency in Multi-modal Models with RoE

New method RoE enhances multi-modal large language models' efficiency with dynamic routing.

2025-07-10T02:38:00+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancements in 360-Degree Video Frame Generation

Introducing 360VFI for improved 360-degree video quality and experience.

2025-07-10T01:42:42+00:00 ― 5 min read

Computer Vision and Pattern Recognition Integrating Audio and Visual Inputs in Machine Learning Models

A new model combines audio and video for better understanding.

2025-07-09T23:36:18+00:00 ― 5 min read

Sound Advancements in Audio-Visual Speech Separation Techniques

A new method improves voice separation in noisy settings with multiple speakers.

2025-07-09T16:53:50+00:00 ― 5 min read

Multimedia Evaluating Video Frame Sampling Techniques for Enhanced Retrieval

This study reviews frame sampling methods for improving video content retrieval.

2025-07-09T09:07:18+00:00 ― 6 min read

Computer Vision and Pattern Recognition Automating Soccer Highlight Creation with Advanced Technology

A new framework simplifies making player-specific highlight clips from soccer videos.

2025-07-09T06:29:18+00:00 ― 6 min read

Computer Vision and Pattern Recognition HaloQuest: A New Approach to Hallucination in VLMs

HaloQuest addresses hallucination issues in vision-language models with a new dataset.

2025-07-08T23:14:48+00:00 ― 9 min read

Multimedia Advancing 3D Cross-Modal Retrieval for Unseen Categories

A new framework enhances 3D object retrieval from diverse data types.

2025-07-08T16:31:54+00:00 ― 5 min read

Computer Vision and Pattern Recognition Detecting Fake News in Short Videos

Examining the creative process behind fake news video production.

2025-07-08T09:33:12+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Visual Scoring with QPT V2

QPT V2 enhances visual scoring using masked image modeling and high-quality data.

2025-07-08T07:26:48+00:00 ― 5 min read

Computer Vision and Pattern Recognition MMTrail: A Comprehensive Video Dataset for Language Models

MMTrail combines visual and audio descriptions for better video-language models.

2025-07-08T06:53:20+00:00 ― 4 min read

Multimedia Protecting Privacy in Multimodal Communication

New method strengthens privacy for shared images and text.

2025-07-08T03:14:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Framework Enhances Audio-Visual Question Answering

A new method improves AVQA performance when audio or visual inputs are missing.

2025-07-07T23:40:42+00:00 ― 5 min read

Computer Vision and Pattern Recognition Generating Synchronized Audio for Silent Videos

A method to create audio that matches first-person viewpoint videos.

2025-07-07T23:36:05+00:00 ― 7 min read

Multimedia New Collection of 3D Models for Research

A diverse collection of 3D models for enhanced research opportunities.

2025-07-07T13:24:30+00:00 ― 6 min read

Sound Evaluating Large Language Models in Music Creation

This study examines how well LLMs understand and generate music.

2025-07-07T10:38:45+00:00 ― 5 min read

Sound ChordSync: Aligning Music Chords with Audio

A new model that synchronizes chord annotations with music audio seamlessly.

2025-07-06T22:30:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Method Enhances Point Cloud Compression

A unified model improves point cloud compression for better quality and efficiency.

2025-07-06T19:15:40+00:00 ― 6 min read

Cryptography and Security A New Approach to Image Verification

Innovative method adds hidden messages to ensure image authenticity.

2025-07-06T15:01:30+00:00 ― 5 min read

Sound New Method for Detecting Deepfakes Using Audio and Video

A framework that effectively identifies deepfake content through combined audio and visual analysis.

2025-07-06T08:44:05+00:00 ― 5 min read

Sound Assessing Music Understanding with MuChoMusic Benchmark

A new benchmark to evaluate models analyzing music and language.

2025-07-06T05:29:45+00:00 ― 6 min read

Computer Vision and Pattern Recognition Innovative Model for Diagnosing Depression

A new approach merges audio, video, and text data for effective depression diagnosis.

2025-07-06T04:53:12+00:00 ― 8 min read

Multimedia Advancing Audio-Visual Generalized Zero-Shot Learning

A new framework improves classification in unseen audio-visual tasks.

2025-07-06T04:41:10+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Human Silhouette Segmentation

A new model enhances silhouette segmentation using RF signals for better motion capture.

2025-07-06T03:34:12+00:00 ― 5 min read

Multimedia Addressing Hate Speech in Videos with MultiHateClip Dataset

New dataset provides insights on hate speech across languages and formats.

2025-07-06T02:31:00+00:00 ― 6 min read

Computer Vision and Pattern Recognition Improving Image Compression for Multimodal Models

New framework enhances image processing in multimodal large language models.

2025-07-06T00:56:12+00:00 ― 4 min read