Computer Science - Multimedia

RSS

Computer Vision and Pattern Recognition Advancing Defect Detection with Synthetic Samples

A new method generates fake defective samples to improve anomaly detection in manufacturing.

2025-09-02T21:51:06+00:00 ― 6 min read

Sound Combining Voice and Face for Better Identification

New method improves speaker verification by merging audio and visual data.

2025-09-02T07:50:15+00:00 ― 5 min read

Multimedia Advancements in Audio Visual Speaker Localization

A new method enhances speaker tracking using audio and visual data.

2025-09-02T06:13:05+00:00 ― 6 min read

Sound A New Model for Music Generation with AI

MusicAOG simplifies music creation and understanding through innovative graph representation.

2025-08-31T08:52:25+00:00 ― 6 min read

Human-Computer Interaction The Importance of Non-Typical Emotions

Analyzing stress and depression can enhance our understanding of mental health.

2025-08-31T02:02:36+00:00 ― 6 min read

Computer Vision and Pattern Recognition Detecting Humor in Videos with FunnyNet-W

A new model identifies funny moments in videos using visual, audio, and text data.

2025-08-30T23:09:25+00:00 ― 6 min read

Computer Vision and Pattern Recognition AesopAgent: Transforming Stories into Videos

AesopAgent enables users to create videos from stories using advanced AI tools.

2025-08-30T18:32:18+00:00 ― 5 min read

Human-Computer Interaction The Role of Images in Wikipedia Learning

Examining how images impact learning in Wikipedia articles.

2025-08-30T02:28:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition Improving Multi-View Representation Learning Techniques

A method to reduce redundancy in multi-view data representations.

2025-08-28T19:32:00+00:00 ― 6 min read

Audio and Speech Processing Advancements in Multimodal Processing with CoAVT

CoAVT integrates audio, visual, and text data for enhanced understanding.

2025-08-28T12:02:50+00:00 ― 7 min read

Multimedia Virbo: Simplifying Video Production with Avatars

Create talking avatar videos easily with Virbo's innovative system.

2025-08-28T05:34:36+00:00 ― 6 min read

Signal Processing WiMANS Dataset: Tracking Human Activity with WiFi

WiMANS dataset enables tracking of multiple users' activities using WiFi signals.

2025-08-28T03:08:25+00:00 ― 7 min read

Computer Vision and Pattern Recognition A Simple Approach to Video Editing

A new framework simplifies video editing tasks using image editing tools.

2025-08-26T23:33:24+00:00 ― 8 min read

Artificial Intelligence Advancing Multimodal Reasoning with BDoG

BDoG improves AI reasoning by integrating various data types effectively.

2025-08-26T15:47:18+00:00 ― 7 min read

Computer Vision and Pattern Recognition Heracles: A New Model for Image and Time-Series Data

Heracles combines transformers and state space models for improved data processing.

2025-08-25T07:23:54+00:00 ― 6 min read

Computation and Language Enhancing Speech Recognition with Acoustic Data

A new method integrates acoustic information into language models for better speech recognition.

2025-08-25T02:15:55+00:00 ― 8 min read

Human-Computer Interaction Transforming Cancer Understanding Through Music

Using music to explain cancer can enhance understanding and engagement.

2025-08-25T01:27:20+00:00 ― 6 min read

Multimedia Advancing Multi-Modal Knowledge Graph Completion

A new framework improves knowledge graph completion with diverse data types.

2025-08-24T21:39:18+00:00 ― 8 min read

Computer Vision and Pattern Recognition New Method for Animated Portraits

A new way to animate portraits with changing expressions and angles.

2025-08-23T20:54:06+00:00 ― 7 min read

Image and Video Processing Improving Point Cloud Compression Techniques

New method enhances 3D data compression while maintaining quality.

2025-08-23T16:15:25+00:00 ― 8 min read

Information Retrieval Improving Product Bundling with CIRP

CIRP enhances item representation for better online product bundling.

2025-08-23T04:34:30+00:00 ― 8 min read

Computation and Language The Rise of the Internet of Senses

Exploring how IoS could transform our digital experiences by engaging all senses.

2025-08-23T04:26:36+00:00 ― 10 min read

Computer Vision and Pattern Recognition Advancements in Dense Video Captioning with DIBS Framework

DIBS enhances video event captioning by refining boundaries using unlabeled data.

2025-08-22T21:35:48+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancing 3D Scene Modeling with Text and Images

Combining images and text improves accuracy in 3D depth estimation.

2025-08-22T08:33:42+00:00 ― 7 min read

Computer Vision and Pattern Recognition The Future of WebXR in the Metaverse

WebXR transforms how we engage with immersive digital environments.

2025-08-21T07:24:48+00:00 ― 8 min read

Multimedia Advancements in Lip-to-Speech Technology

New method enhances speech synthesis for individuals who cannot speak.

2025-08-20T20:14:25+00:00 ― 6 min read

Programming Languages AniFrame: Simplifying Creative Coding for Beginners

AniFrame makes programming art accessible for newcomers with an easy-to-use approach.

2025-08-19T18:40:42+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Text-to-Image Synthesis for News Captions

New dataset enhances image generation from complex news captions.

2025-08-19T17:13:48+00:00 ― 6 min read

Multimedia Fact-Checking Misinformation on Social Media

A new method improves fact-checking of claims on social media.

2025-08-19T05:30:42+00:00 ― 6 min read

Multimedia Introducing Shotit: A New Way to Search Videos

Shotit enables users to find videos quickly using images, streamlining the search process.

2025-08-18T10:01:30+00:00 ― 6 min read

Information Retrieval Improving Recommendations in Cold-Start Scenarios

A new framework for enhancing recommendations without prior data.

2025-08-17T21:15:12+00:00 ― 7 min read

Multimedia Pegasus-1: A New Model for Video Understanding

Pegasus-1 allows users to interact with videos using natural language.

2025-08-17T17:10:18+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Talking Head Synthesis with GaussianTalker

GaussianTalker offers natural lip synchronization and high-quality visuals for talking head videos.

2025-08-17T09:24:12+00:00 ― 6 min read

Multimedia Innovative Method for Character Recognition in Comics

A new approach allows machines to identify comic characters without prior training.

2025-08-17T09:00:30+00:00 ― 6 min read

Human-Computer Interaction Making Spatial Audio Accessible for Video Creators

Mimosa simplifies spatial audio creation for amateur video makers.

2025-08-17T02:33:24+00:00 ― 7 min read

Computer Vision and Pattern Recognition Assessing Video Quality in User-Generated Content

The AIS 2024 Challenge seeks to improve video quality assessments using deep learning.

2025-08-16T21:01:36+00:00 ― 5 min read

Computer Vision and Pattern Recognition Realistic Digital Humans: The Rise of GaussianTalker

GaussianTalker transforms digital interaction with lifelike talking heads.

2025-08-16T19:34:42+00:00 ― 6 min read

Audio and Speech Processing The Rising Trend of Subtitles in Streaming

Subtitles are becoming essential for enhancing viewer experience in streaming services.

2025-08-16T05:18:30+00:00 ― 7 min read

Computer Vision and Pattern Recognition New Methods to Detect Deepfakes

Research introduces innovative techniques to improve detection of deepfake videos.

2025-08-14T19:39:06+00:00 ― 6 min read

Computer Vision and Pattern Recognition Introducing the 360+x Dataset for Enhanced Scene Understanding

A new dataset improves how robots interpret real-world environments.

2025-08-13T18:11:55+00:00 ― 6 min read