Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Interazione uomo-macchina Migliorare la localizzazione del suono in XR con Auptimize

Auptimize migliora il posizionamento degli segnali audio per un'interazione utente migliore in XR.

2025-06-29T04:15:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Malacopula: Una Nuova Minaccia ai Sistemi di Verifica Vocale

Malacopula mette in dubbio l'affidabilità delle tecnologie di verifica automatica degli speaker.

2025-06-29T03:27:15+00:00 ― 6 leggere min

Grafica MetaFace: Avanzando le animazioni di facce parlate in 3D

Un nuovo metodo per animazioni facciali 3D più realistiche che si adattano agli stili di parlato personali.

2025-06-28T19:21:25+00:00 ― 5 leggere min

Suono Migliorare il riconoscimento delle parole chiave con l'addestramento avversario

L'addestramento avversariale migliora l'accuratezza del riconoscimento delle parole chiave nel parlato sintetico e reale.

2025-06-28T13:41:20+00:00 ― 5 leggere min

Suono Progressi nel Few-Shot Learning per l'elaborazione audio

Questo pezzo parla del few-shot learning e del suo impatto sui task audio.

2025-06-28T12:04:10+00:00 ― 7 leggere min

Suono Trasformare la comunicazione: Conversione vocale basata sul viso

Una nuova tecnologia collega i tratti del viso alla voce, aiutando la comunicazione per chi non può parlare.

2025-06-28T06:24:05+00:00 ― 5 leggere min

Apprendimento automatico Avanzamenti nell'apprendimento compositivo audio

Un nuovo metodo migliora la separazione e generazione audio senza dati etichettati.

2025-06-28T05:35:30+00:00 ― 6 leggere min

Suono ASVspoof Challenge: Sviluppi nell'autenticazione vocale

Affrontare le sfide dell'audio falso e della verifica dell'oratore.

2025-06-28T00:44:00+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare la pronuncia per chi non è madrelingua

Un nuovo sistema migliora la chiarezza del parlato per gli studenti di lingue, concentrandosi sull'allenamento dell'accento.

2025-06-27T23:55:25+00:00 ― 5 leggere min

Suono Classificare la rage music: un approccio di machine learning

Analizzare le caratteristiche della musica rage attraverso il machine learning per una migliore classificazione dei generi.

2025-06-27T20:41:05+00:00 ― 5 leggere min

Suono L'ascesa dell'audio falsificato e le sfide nella rilevazione

I falsi audio sono un problema serio; metodi di rilevamento efficaci sono essenziali.

2025-06-27T19:52:30+00:00 ― 6 leggere min

Suono Migliorare il rilevamento di audio falso con la quantizzazione dei colori

Un nuovo metodo migliora l'accuratezza nel rilevare audio sintetico.

2025-06-27T19:03:55+00:00 ― 6 leggere min

Suono DisMix: Trasformare la Manipolazione Musicale

Un nuovo metodo per separare e manipolare suoni musicali.

2025-06-27T17:26:45+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Progressi nella tecnologia di sintesi vocale con SSL-TTS

SSL-TTS semplifica la sintesi vocale usando pochi dati di addestramento per risultati di alta qualità.

2025-06-27T15:49:35+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale multilingue senza dati originali

Nuovi metodi migliorano i modelli ASR per più lingue, preservando le conoscenze passate.

2025-06-27T15:01:00+00:00 ― 5 leggere min

Calcolo e linguaggio Migliorare il riconoscimento vocale bilingue con XCB

Un nuovo approccio migliora il riconoscimento delle frasi con cambio di codice nel linguaggio bilingue.

2025-06-27T11:46:40+00:00 ― 6 leggere min

Suono Video-Foley: Trasformare il Suono nel Design Multimediale

Un sistema innovativo automatizza la generazione di suoni per film e giochi.

2025-06-26T23:37:55+00:00 ― 8 leggere min

Suono Sviluppi nella tecnologia di verifica vocale

Nuovi metodi migliorano il riconoscimento vocale in ambienti rumorosi.

2025-06-26T18:46:25+00:00 ― 5 leggere min

Suono Progressi nella tecnologia di conversione vocale zero-shot

Il nuovo modello migliora la conversione vocale, specialmente per il parlato sussurrato e le applicazioni in tempo reale.

2025-06-26T17:57:50+00:00 ― 6 leggere min

Suono Uno sguardo nuovo sulla modellazione degli amplificatori per chitarra

Esplorando un nuovo approccio digitale alla modellazione del suono degli amplificatori per chitarra.

2025-06-26T16:20:40+00:00 ― 5 leggere min

Suono GaMaDHaNi: Un Nuovo Sistema per le Melodie Hindustani

Presentiamo un sistema rivoluzionario per generare musica vocale hindustani.

2025-06-26T11:29:10+00:00 ― 7 leggere min

Suono Sviluppi nei modelli di compressori di gamma dinamica con reti neurali

Un nuovo metodo per modellare con precisione i compressori ottici usando reti neurali.

2025-06-26T10:40:35+00:00 ― 8 leggere min

Interazione uomo-macchina WhisperMask: Un Cambiamento Epocale nella Comunicazione Vocale

WhisperMask cattura la voce chiaramente nei posti rumorosi, migliorando la comunicazione.

2025-06-26T09:03:25+00:00 ― 6 leggere min

Suono Progressi nella Valutazione della Qualità Vocale Utilizzando la Tecnologia

Nuovi metodi migliorano le valutazioni della qualità della voce per i pazienti con problemi al sistema vocale.

2025-06-26T07:26:15+00:00 ― 6 leggere min

Interazione uomo-macchina VoiceX: Una Nuova Era nella Creazione Vocale

VoiceX semplifica il processo di creazione di voci personalizzate per diverse applicazioni.

2025-06-26T05:49:05+00:00 ― 5 leggere min

Calcolo e linguaggio Il Ruolo della Prosodia e della Pragmatica nella Tecnologia del Parlato

Esaminando come i modelli vocali influenzano il significato e le prestazioni della tecnologia.

2025-06-25T21:43:15+00:00 ― 5 leggere min

Suono Presentiamo NEST: Un Nuovo Modello per l'Elaborazione del Parlato

NEST offre un approccio più veloce ed efficiente per i compiti di riconoscimento vocale self-supervised.

2025-06-25T20:06:05+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Valutare il pregiudizio nei sistemi di verifica del parlante

Uno sguardo ai metodi di misurazione del bias per la verifica dell'identità del parlante.

2025-06-25T17:40:20+00:00 ― 6 leggere min

Multimedia Ripensare i benchmark per la localizzazione delle fonti audio-visive

I benchmark attuali non valutano bene la capacità dei modelli di collegare dati audio e visivi.

2025-06-25T16:03:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nei Metodi di Rilevamento dell'Inizio Musicale

Nuovi algoritmi migliorano l'accuratezza nell'identificare l'inizio delle note musicali.

2025-06-25T14:26:00+00:00 ― 7 leggere min

Suono Progressi nel Riconoscimento delle Emozioni Vocali con Wav2Small

Wav2Small migliora il riconoscimento delle emozioni nel parlato con minori esigenze di risorse.

2025-06-25T10:23:05+00:00 ― 5 leggere min

Suono Sfide nel Rilevare Segnali Vocali Parzialmente Falsi

Uno sguardo alle complessità dell'identificazione delle tracce audio miste.

2025-06-25T06:20:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di riconoscimento della voce sussurrata

Nuovi metodi migliorano il riconoscimento vocale per la comunicazione sussurrata.

2025-06-25T05:31:35+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Comprendere i dialetti della lingua tamil

Una panoramica dei ricchi dialetti del Tamil e dei metodi di identificazione.

2025-06-25T04:43:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Innovazioni nella scoperta di termini parlati con DUSTED

DUSTED migliora l'efficienza nell'identificare le parole parlate analizzando i modelli fonetici.

2025-06-25T02:17:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Riconoscimento Sonoro Efficiente Usando la Trasformata Wavelet Continua

Un nuovo metodo migliora il riconoscimento del suono con meno potenza di calcolo.

2025-06-24T23:51:30+00:00 ― 5 leggere min

Suono Framework innovativo per il rilevamento dei suoni delle macchine

Un nuovo modo per rilevare problemi delle macchine senza compromettere la privacy dei dati.

2025-06-24T16:34:15+00:00 ― 6 leggere min

Suono VoiceTailor: Personalizzare la tecnologia di sintesi vocale

VoiceTailor trasforma i sistemi TTS per output vocali personali e super efficienti.

2025-06-24T15:45:40+00:00 ― 5 leggere min

Suono Capire la stima del campo sonoro: un approccio pratico

Scopri come il suono si diffonde negli spazi e le sue applicazioni.

2025-06-24T14:57:05+00:00 ― 7 leggere min

Suono StyleSpeech: Il Futuro della Tecnologia Text-to-Speech

StyleSpeech migliora i sistemi TTS catturando le sfumature del linguaggio naturale.

2025-06-24T14:08:30+00:00 ― 6 leggere min