A look at how Minimax Optimization enhances Spiking Neural Networks efficiency.

2025-10-11T03:18:18+00:00 ― 6 min read

Multimedia Jade: A New Approach to Video Streaming Quality

Jade improves video quality through user feedback and adaptive streaming techniques.

2025-10-10T17:57:24+00:00 ― 5 min read

Computer Vision and Pattern Recognition Innovative Model for Color Selection in Design

A new model recommends colors based on design elements and text.

2025-10-10T17:49:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition Transferring Hand Movements Between Avatars

A new method enhances gesture communication for avatars with unique hand shapes.

2025-10-10T04:39:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition Audio-Visual Question Answering: Bridging Sound and Sight

AVQA connects audio and visual elements in videos to answer questions.

2025-10-09T23:47:12+00:00 ― 6 min read

Computer Vision and Pattern Recognition Introducing the Versatile Face Animator for 3D Animation

A new method for creating realistic 3D facial animations quickly and efficiently.

2025-10-09T16:32:42+00:00 ― 5 min read

Cryptography and Security Advances in Video Steganography and Detection

New methods improve the detection of hidden messages in video files.

2025-10-09T09:34:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Transforming Skulls into Living Animal Images

A method to translate skull images into realistic animal representations using text prompts.

2025-10-08T21:43:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Advancements in Real-Time Video Analysis

New methods improve event detection in streaming videos using language and historical data.

2025-10-08T18:57:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Method for Detecting Hateful Memes

A novel approach improves detection of harmful memes using targeted questioning.

2025-10-08T12:22:06+00:00 ― 8 min read

Multimedia EMID: A New Approach to Music and Images

Explore the emotional ties between music and images with the EMID dataset.

2025-10-08T07:45:36+00:00 ― 5 min read

Image and Video Processing Reconstructing Visual Images from Brain Signals

This research links brain activity to visual perception by reconstructing images from EEG signals.

2025-10-08T06:54:00+00:00 ― 6 min read

Computer Vision and Pattern Recognition Connecting Words to Images: Visual Grounding Unlocked

Discover the impact of visual grounding in language and image interactions.

2025-10-07T08:43:06+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancing Video Recognition with AVGN

A new method enhances efficiency in video recognition using audio and visual data.

2025-10-07T00:09:36+00:00 ― 5 min read

Artificial Intelligence Advancements in AI for Game Testing

A new AI agent improves game testing efficiency and quality.

2025-10-06T23:38:00+00:00 ― 6 min read

Multimedia Introducing Dronevision: A Compact 3D Display System

Dronevision revolutionizes 3D multimedia with a desk-sized display using flying drones.

2025-10-06T22:03:12+00:00 ― 6 min read

Multimedia Evaluating Distance Sensors for Flying Light Specks

A study on sensors vital for the performance of new drones.

2025-10-06T21:55:18+00:00 ― 4 min read

Information Retrieval Advancing Recommendation Systems with Multi-Modal Data

A new framework improves item suggestions using different data types.

2025-10-05T12:52:24+00:00 ― 5 min read

Computer Vision and Pattern Recognition EVE: A New Approach to Vision-Language Models

Discover EVE, a model improving understanding of images and text.

2025-10-05T11:09:42+00:00 ― 6 min read

Multimedia Advancements in Vision-Language Pretraining Models

Research focuses on improving models that connect visuals and text through language understanding.

2025-10-04T21:51:48+00:00 ― 6 min read

Human-Computer Interaction Advancements in Gesture Generation for AI Communication

New model enhances gesture generation for more human-like interactions.

2025-10-04T05:32:12+00:00 ― 5 min read

Multimedia Advancements in Visual Acoustic Matching

A new method improves audio matching using images, enhancing realism in audio environments.

2025-10-03T03:55:25+00:00 ― 7 min read

Machine Learning The Risks of Steganography in Machine Learning

Examining hidden data concerns in machine learning models and their security implications.

2025-10-03T03:12:12+00:00 ― 7 min read

Audio and Speech Processing New Dataset Links Emotions to MIDI Music

A dataset connects emotions to MIDI songs using song lyrics analysis.

2025-10-03T02:18:15+00:00 ― 7 min read

Computer Vision and Pattern Recognition Improving TextVQA with Separate and Locate Method

A new approach enhances accuracy in answering questions about text in images.

2025-10-02T16:40:12+00:00 ― 5 min read

Multimedia Advancements in Visual Question Answering with PROOFREAD

PROOFREAD enhances visual question answering using knowledge from large language models.

2025-10-02T08:30:24+00:00 ― 6 min read

Sound Advancing Music Captioning with Large Language Models

Using LLMs to create a vast dataset for music captioning.

2025-10-02T08:29:25+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Terrain Generation with TDN

Terrain Diffusion Network enhances realistic landscape creation with user involvement.

2025-10-02T06:00:18+00:00 ― 4 min read

Sound Advancements in Voice Style Transfer Technology

HierVST transforms voices seamlessly, enhancing audio quality without needing extensive data.

2025-10-02T05:15:05+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Method for Transforming Faces into Artistic Sketches

A novel approach turns facial photos into human-like drawings using advanced techniques.

2025-10-02T04:33:24+00:00 ― 6 min read

Multimedia Advancements in Engagement Estimation for Conversations

Research develops a model to accurately measure engagement in conversations.

2025-10-01T21:57:50+00:00 ― 6 min read

Computer Vision and Pattern Recognition Protecting Authenticity: The DRAW Method for RAW Images

A new approach to safeguard RAW images from manipulation.

2025-10-01T10:37:40+00:00 ― 5 min read

Computer Vision and Pattern Recognition Understanding VideoQA: Challenges and Solutions

New dataset and methods improve video question answering accuracy.

2025-10-01T06:57:48+00:00 ― 6 min read

Computation and Language Advancing Sentiment Analysis with UniSA Framework

UniSA framework unifies tasks in sentiment analysis for better emotion recognition.

2025-10-01T06:18:18+00:00 ― 5 min read

Computer Vision and Pattern Recognition New Technique Tricks Deepfake Detectors

A method using head turns successfully deceives deepfake detection systems.

2025-10-01T02:45:00+00:00 ― 5 min read

Computer Vision and Pattern Recognition Introducing the MultiWay-Adapter for Multimodal Models

A framework for efficient adaptation of multimodal large language models.

2025-10-01T01:18:06+00:00 ― 5 min read

Computer Vision and Pattern Recognition A Comparative Approach to Dataset Inspection

Using prototypes to enhance dataset comparison in computer vision.

2025-09-30T09:38:00+00:00 ― 8 min read

Computer Vision and Pattern Recognition Automated Typography Design for Effective Communication

A program that generates visually appealing typography tailored to context.

2025-09-30T06:28:24+00:00 ― 4 min read

Sound MusicLDM: A New Approach to Text-to-Music Generation

MusicLDM transforms text into original music, offering fresh avenues for creativity.

2025-09-30T05:28:40+00:00 ― 7 min read

Sound Improving Singing Melody Extraction Techniques with Deep Learning

New methods enhance the accuracy of extracting singing melodies from mixed audio.

2025-09-30T01:25:45+00:00 ― 7 min read

Computer Science - Multimedia