Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Elaborazione dell'audio e del parlato Migliorare la classificazione dell'intonazione musicale con SDTW

Nuove strategie per migliorare la stabilità dell'allenamento nella classificazione delle altezze musicali.

2025-09-27T13:30:35+00:00 ― 6 leggere min

Suono Avanzamenti nella tecnologia di conversione vocale

Phoneme Hallucinator trasforma la conversione vocale con dati limitati per risultati più chiari.

2025-09-27T10:16:15+00:00 ― 5 leggere min

Suono Avanzando la Generazione di Gestures per Umani Digitali

Un nuovo metodo crea gesti realistici a partire da audio vocale grezzo.

2025-09-27T08:39:05+00:00 ― 5 leggere min

Apprendimento automatico Nuovo metodo per analizzare l'attività cerebrale durante il parlato

I ricercatori hanno sviluppato il Neural Latent Aligner per interpretare meglio i segnali cerebrali durante i compiti di parola.

2025-09-27T05:24:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzare nel riconoscimento vocale bilingue con unità grafiche

Migliorare i sistemi ASR ibridi per il parlato bilingue usando unità grafiche.

2025-09-27T03:47:35+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nell'apprendimento congiunto di discorso e testo

Un nuovo modello migliora l'allineamento di parlato e testo per una migliore riconoscimento automatico.

2025-09-27T02:10:25+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento visivo del parlato con Lip2Vec

Lip2Vec migliora il riconoscimento visivo del parlato usando meno dati etichettati.

2025-09-27T01:21:50+00:00 ― 7 leggere min

Calcolo e linguaggio Sviluppi nella tecnologia di riconoscimento vocale

Nuovi metodi migliorano l'accuratezza e la velocità nei sistemi di riconoscimento vocale.

2025-09-26T11:35:55+00:00 ― 5 leggere min

Apprendimento automatico O-1: Una Nuova Frontiera nell'Addestramento al Riconoscimento Vocale

O-1 migliora il riconoscimento vocale ottimizzando i metodi di auto-apprendimento.

2025-09-26T09:10:10+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Automatico con Iniezione di Testo

Un nuovo metodo migliora le prestazioni dell'ASR attraverso l'integrazione dei dati testuali.

2025-09-26T07:33:00+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale con l'iniezione di testo

L'inserimento di testo aiuta a riconoscere le informazioni personali mantenendo la privacy.

2025-09-26T06:44:25+00:00 ― 5 leggere min

Suono Progressi nella Rilevazione degli Eventi Sonori Utilizzando l'Apprendimento Generativo

Scopri come le nuove tecniche stanno trasformando il rilevamento degli eventi sonori per diverse applicazioni.

2025-09-26T05:55:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato L'importanza del processamento audio non lineare

Esplorare metodi non lineari nell'audio per la produzione musicale e l'analisi del parlato.

2025-09-26T03:30:05+00:00 ― 6 leggere min

Suono Progressi nell'Estrazione del Pitch con PitchNet

Un nuovo metodo per una rilevazione precisa del pitch nella musica e nei suoni.

2025-09-26T02:41:30+00:00 ― 6 leggere min

Suono Avanzamenti nel riconoscimento vocale con tecnologia mmWave

Radio2Text usa segnali mmWave per il riconoscimento vocale in tempo reale in ambienti rumorosi.

2025-09-25T22:38:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutazione di un sistema di mascheramento del suono automatico nei parchi urbani

Uno studio esamina l'efficacia dei mascheratori di suono automatici negli spazi pubblici.

2025-09-25T18:35:40+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel riconoscimento vocale con reti neurali grafiche

Le reti neurali grafiche migliorano l'accuratezza del riconoscimento vocale analizzando le relazioni tra i campioni vocali.

2025-09-25T09:41:15+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nel riconoscimento delle emozioni vocali tra le lingue

Uno studio che valuta il riconoscimento delle emozioni nei modelli di linguaggio in sei lingue.

2025-09-25T08:04:05+00:00 ― 5 leggere min

Suono AffectEcho: Colmare le Emozioni nel Parlare dell'IA

Il modello AffectEcho migliora l'espressione emotiva nel parlato generato dall'IA.

2025-09-25T07:15:30+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la conversione da grafema a fonema con un nuovo metodo di campionamento

Questo studio migliora i modelli G2P concentrandosi sulle aree soggette a errori durante l'addestramento.

2025-09-25T05:38:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle tecniche di tracciamento dei formanti

Scopri metodi che migliorano l'accuratezza nel tracciamento dei formanti per l'analisi del parlato.

2025-09-24T22:21:05+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Usare l'analisi vocale per valutare la gravità del Parkinson

I ricercatori sviluppano metodi basati sulla voce per una valutazione più precisa del morbo di Parkinson.

2025-09-24T21:32:30+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzare nel Rilevamento Sonoro con Tecniche di Meta-Apprendimento

Meta-SELD migliora la localizzazione degli eventi sonori in ambienti diversi.

2025-09-24T19:55:20+00:00 ― 6 leggere min

Apprendimento automatico Momenti audiovisivi nel tempo: un nuovo dataset per il riconoscimento delle azioni

AVMIT offre ai ricercatori spunti su come suono e visione si collegano nel riconoscimento delle azioni.

2025-09-24T07:46:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nella previsione della qualità audio con GML

Un nuovo modello di intelligenza artificiale migliora la previsione dei punteggi di qualità audio.

2025-09-24T03:43:40+00:00 ― 6 leggere min

Suono Generazione di Musica AI: Uno Studio sulle Tecniche di Campionamento

Questa ricerca esamina come i metodi di campionamento influenzano la qualità della musica generata dall'IA.

2025-09-24T02:55:05+00:00 ― 6 leggere min

Suono Progressi nella tecnologia anti-spoofing audio

Un nuovo metodo migliora il rilevamento di audio falso nei sistemi di riconoscimento vocale.

2025-09-23T23:40:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Progressi nel Beat Tracking per la Musica Classica

Nuovi metodi migliorano l'accuratezza del beat tracking nella musica classica complessa.

2025-09-23T14:46:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Capire il Ruolo della Diarizzazione Linguistica

Uno sguardo a come la diarizzazione linguistica aiuta nelle conversazioni multilingue.

2025-09-22T23:23:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Sviluppi nel Framework di Generazione della Texture Audio

Un nuovo framework semplifica la generazione di texture audio riducendo il bisogno di etichettatura.

2025-09-22T22:34:40+00:00 ― 6 leggere min

Suono Progressi nel riconoscimento vocale in ambienti rumorosi

Un nuovo sistema migliora il riconoscimento vocale in ambienti rumorosi usando tecniche avanzate.

2025-09-22T21:46:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Valutazione delle prestazioni del Baseline B1 della VoicePrivacy Challenge

Valutare l'efficacia dell'anonimizzazione della voce senza perdere il suono naturale.

2025-09-22T14:28:50+00:00 ― 6 leggere min

Suono Sviluppi nella classificazione audio con LCANets++

I nuovi modelli migliorano l'accuratezza della classificazione audio e la resilienza contro il rumore e gli attacchi.

2025-09-22T12:51:40+00:00 ― 5 leggere min

Suono AI nella Musica: Strumenti e Tecniche di Creazione

Una panoramica degli strumenti AI per la creazione musicale e le loro caratteristiche uniche.

2025-09-22T08:48:45+00:00 ― 11 leggere min

Suono Generare suoni realistici da video silenziosi

La ricerca esplora il deep learning per creare audio che si abbini al contenuto video muto.

2025-09-22T04:45:50+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Combinare Suoni e Immagini per Migliorare la Qualità Audio

Un nuovo metodo migliora le registrazioni audio usando indizi visivi.

2025-09-22T03:57:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare la qualità del parlato con i modelli XLS-R

Uno sguardo a come i modelli XLS-R migliorano la valutazione della qualità audio nelle riunioni online.

2025-09-22T01:31:30+00:00 ― 6 leggere min

Suono Migliorare il tagging audio con il framework CED

Un nuovo metodo migliora le prestazioni e l'efficienza del tagging audio.

2025-09-22T00:42:55+00:00 ― 5 leggere min

Suono Nuovo studio sulla rilevazione del linguaggio generato dall'IA

Le ricerche evidenziano metodi di rilevamento in tempo reale per audio fasullo creato dall'IA.

2025-09-21T19:02:50+00:00 ― 6 leggere min

Suono Whombat: un nuovo strumento per la ricerca bioacustica

Whombat semplifica l'annotazione delle registrazioni audio per la ricerca sulla fauna selvatica.

2025-09-21T18:14:15+00:00 ― 5 leggere min