Electrical Engineering and Systems Science - Audio and Speech Processing

RSS

Audio and Speech Processing New Dataset and Model for Multilingual Text-to-Speech

CML-TTS enables better text-to-speech systems across seven languages.

2025-10-21T18:04:50+00:00 ― 5 min read

Sound Evaluating Speech Quality with Machine Learning Models

This study assesses various models for predicting synthesized speech quality.

2025-10-21T16:27:40+00:00 ― 5 min read

Sound Advancements in Bird Sound Classification Methods

Researchers automate bird sound classification, enhancing accuracy in monitoring species.

2025-10-21T14:50:30+00:00 ― 5 min read

Audio and Speech Processing FALL-E: A New Era in Sound Creation

FALL-E creates high-quality sound effects from text descriptions.

2025-10-21T13:13:20+00:00 ― 5 min read

Audio and Speech Processing Transforming Typical Speech for Those with Dysarthria

A new method enhances voice conversion for individuals with atypical speech.

2025-10-21T05:56:05+00:00 ― 4 min read

Audio and Speech Processing Advancements in Multi-Talker Speech Recognition with SURT 2.0

SURT 2.0 improves speech recognition for multiple speakers in real-time settings.

2025-10-21T05:07:30+00:00 ― 5 min read

Sound Introducing MARBLE: A Benchmark for Music AI

MARBLE sets a standard for evaluating music AI models across multiple tasks.

2025-10-21T04:18:55+00:00 ― 6 min read

Audio and Speech Processing New Model Enhances Bird Sound Detection

A new method improves the accuracy of identifying bird calls.

2025-10-21T03:30:20+00:00 ― 6 min read

Sound Improving Audio Processing with SFI Layers

New algorithms enhance audio processing performance across varying sample rates.

2025-10-21T00:16:00+00:00 ― 5 min read

Sound Using Sound to Sort Male Mosquitoes for Pest Control

Research explores sound analysis to improve mosquito sorting for disease control.

2025-10-20T21:50:15+00:00 ― 5 min read

Sound Transforming Vocal Sounds with DSP Techniques

Explore two innovative methods for altering vocal timbre using Digital Signal Processing.

2025-10-20T14:33:00+00:00 ― 4 min read

Audio and Speech Processing Advancements in Automatic Speech Recognition Learning

A new method enhances speech recognition technology without losing previously learned knowledge.

2025-10-20T13:44:25+00:00 ― 6 min read

Sound Advances in Multitrack Music Transcription with Perceiver TF

A new model improves music transcription accuracy for multiple instruments.

2025-10-20T12:07:15+00:00 ― 5 min read

Sound Advancements in Audio Processing with DAMAS-FISTA

A new method combines traditional and deep learning for efficient sound imaging.

2025-10-20T11:18:40+00:00 ― 6 min read

Audio and Speech Processing Advancements in Sound Field Reconstruction

New methods improve realism in audio technologies using physics-informed techniques.

2025-10-20T10:30:05+00:00 ― 6 min read

Audio and Speech Processing Advancing Language Learning for Low-Resource Languages

A new model enhances word learning using audio and images.

2025-10-20T09:41:30+00:00 ― 5 min read

Audio and Speech Processing Voice Recognition's Role in Clinical Trial Integrity

Investigating how voice technology can prevent duplicate patient participation in trials.

2025-10-20T07:15:45+00:00 ― 6 min read

Audio and Speech Processing Analyzing Speech to Detect Mental Health Issues

A new dataset helps identify signs of depression and anxiety through speech analysis.

2025-10-20T06:27:10+00:00 ― 6 min read

Sound Reconstructing Sound from Brain Activity

New method reconstructs sound from brain signals, revealing insights into auditory processing.

2025-10-20T01:35:40+00:00 ― 5 min read

Sound Bringing AI to Music Creation on Bela

A guide to using AI models for music on the Bela platform.

2025-10-19T22:21:20+00:00 ― 5 min read

Computation and Language New Metrics for Assessing Speech Recognition Quality

A new method evaluates ASR systems without needing reference texts.

2025-10-19T19:07:00+00:00 ― 5 min read

Computation and Language Evaluating ASR Quality Without Reference Texts

NoRefER offers a new way to assess speech recognition outputs without needing transcripts.

2025-10-19T16:41:15+00:00 ― 6 min read

Computer Vision and Pattern Recognition Improving Video Captioning with Audio Integration

This article discusses a method to enhance video captioning by incorporating audio.

2025-10-19T15:52:40+00:00 ― 5 min read

Sound Advancements in Voice Conversion Technology

A new model improves voice conversion by simplifying speech separation techniques.

2025-10-19T12:38:20+00:00 ― 6 min read

Sound Advancements in Measuring Music Similarity

Research aims to combine audio and symbolic data for music similarity analysis.

2025-10-19T11:49:45+00:00 ― 7 min read

Audio and Speech Processing Advancements in Spoken Language Diarization Techniques

New methods enhance speech segmentation in multi-language conversations.

2025-10-19T02:06:45+00:00 ― 6 min read

Sound New Method Improves Sound Isolation in Noisy Environments

NoisyILRMA enhances sound extraction from background noise for clearer audio experiences.

2025-10-19T00:29:35+00:00 ― 4 min read

Sound Advancements in Singing Voice Understanding Using SSL Models

This article discusses the role of self-supervised learning in music technology.

2025-10-18T22:03:50+00:00 ― 5 min read

Audio and Speech Processing Advancements in Automatic Speech Recognition for Multilingual Use

A new framework improves ASR for low-resource languages and multilingual scalability.

2025-10-18T19:38:05+00:00 ― 5 min read

Sound Advancing Speech Recognition for Deaf Users

Personalized ASR systems improve communication for DHH individuals significantly.

2025-10-18T03:26:25+00:00 ― 5 min read

Sound Advancements in Speaker Diarization Techniques

New methods leverage conversational summaries for better speaker recognition.

2025-10-18T00:12:05+00:00 ― 5 min read

Computation and Language Improving Automatic Speech Scoring for Language Learners

Enhancing feedback systems for English learners by addressing the cold start problem.

2025-10-17T16:54:50+00:00 ― 6 min read

Sound Improving Noise Localization for Wind Turbines

Researching methods to locate sound sources from wind turbines for noise reduction.

2025-10-17T16:06:15+00:00 ― 4 min read

Sound Advancements in Singing Technique Detection with PrimaDNN

Introducing a new model for identifying singing techniques in audio tracks.

2025-10-17T14:29:05+00:00 ― 5 min read

Multimedia Improving Target Speaker Extraction with Visual Cues

A new model enhances speech extraction using audio and visual information.

2025-10-17T12:51:55+00:00 ― 5 min read

Audio and Speech Processing Introducing Wespeaker: A Toolkit for Speaker Recognition

Wespeaker simplifies speaker recognition with user-friendly tools and pretrained models.

2025-10-17T10:26:10+00:00 ― 5 min read

Sound Converting Mono Audio to Immersive Stereo

A new method transforms mono signals into engaging stereo experiences.

2025-10-17T01:31:45+00:00 ― 5 min read

Computation and Language Advancing Emotion Recognition Across Age and Languages

A study on improving emotion detection in speech for diverse groups.

2025-10-16T23:06:00+00:00 ― 5 min read

Audio and Speech Processing Improving Speech Recognition through Confidence-Based Ensembles

This article discusses enhancing speech recognition using confidence-based ensemble methods.

2025-10-16T18:14:30+00:00 ― 5 min read

Multimedia Revolutionizing Infant Sleep Monitoring with LittleBeats

Study uses multi-data device to track infant sleep patterns more accurately.

2025-10-16T17:25:55+00:00 ― 4 min read