Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

Suono ConversaSynth: Avanzando Conversazioni Audio Sintetiche

Un framework che usa modelli di linguaggio grandi per creare dialoghi audio autentici.

2025-06-20T05:41:15+00:00 ― 6 leggere min

Calcolo e linguaggio Progressi nella Tokenizzazione del Parlato: Un Quadro per la Valutazione

Un nuovo benchmark aiuta a valutare i tokenizer vocali per migliorare le prestazioni.

2025-06-20T00:01:10+00:00 ― 6 leggere min

Suono Migliorare le prestazioni dell'ASR mantenendo l'ordine temporale

Un nuovo metodo migliora il riconoscimento vocale automatico mantenendo l'ordine dei suoni nel trasferimento delle conoscenze.

2025-06-19T19:58:15+00:00 ― 4 leggere min

Calcolo e linguaggio Progressi nel Riconoscimento Vocale per il Codice-Switching

Un nuovo modello migliora il riconoscimento vocale nelle conversazioni multilingue.

2025-06-19T16:43:55+00:00 ― 6 leggere min

Suono Valutare Grandi Modelli Linguistici in Musicologia

Questo studio analizza l'efficacia dei LLM nella musicologia e la loro affidabilità.

2025-06-19T15:55:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento vocale con l'addestramento aumentato da rumore

Questo studio analizza come il rumore possa migliorare la resilienza nel riconoscimento del parlato di fronte alle sfide.

2025-06-19T14:18:10+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la stima della direzione del suono con un microfono extra

Scopri come un microfono in più migliora la rilevazione della direzione del suono in ambienti rumorosi.

2025-06-19T12:41:00+00:00 ― 5 leggere min

Suono Progressi nella Tecnologia di Conversione Vocale One-Shot

Un nuovo metodo migliora la conversione della voce usando meno campioni.

2025-06-19T11:03:50+00:00 ― 5 leggere min

Calcolo e linguaggio Progressi nei modelli di riconoscimento vocale leggeri

Un trasduttore innovativo e leggero migliora l'efficienza e la precisione del riconoscimento vocale.

2025-06-19T07:00:55+00:00 ― 6 leggere min

Suono Avanzare nella generazione musicale simbolica con dati audio

Nuovi metodi migliorano la creazione musicale attraverso l'analisi audio e il controllo dell'utente.

2025-06-19T01:20:50+00:00 ― 7 leggere min

Suono Watermarking nei modelli audio generativi: un nuovo approccio

Nuovi metodi di watermarking proteggono i creatori nei modelli generativi audio.

2025-06-18T23:43:40+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Progressi nella sintesi vocale usando DDSP

Scopri come DDSP migliora l'efficienza e la qualità della sintesi vocale.

2025-06-18T17:15:00+00:00 ― 6 leggere min

Suono Sviluppi nei sistemi di riconoscimento delle emozioni vocali

Questo studio migliora la SER grazie a una migliore pre-elaborazione e modelli di attenzione più efficienti.

2025-06-18T12:23:30+00:00 ― 5 leggere min

Suono Generazione di musica di sottofondo dinamica per media interattivi

Un sistema per regolare la musica in tempo reale nei giochi e nei film.

2025-06-18T10:46:20+00:00 ― 6 leggere min

Suono Presentiamo aTENNuate: Miglioramento della Voce in Tempo Reale

aTENNuate offre un miglioramento efficiente in tempo reale dei segnali vocali, migliorando la chiarezza della comunicazione.

2025-06-18T05:54:50+00:00 ― 5 leggere min

Suono Utilizzare suoni ultrasonici per misurare la distanza indoors

I ricercatori esplorano gli echi ultrasonici per misurazioni di distanza precise in ambienti interni tranquilli.

2025-06-18T04:17:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Anonymizzare le Voci: Proteggere l'Identità Online

Le tecniche di anonimizzazione degli speaker proteggono le informazioni personali mantenendo chiara la comunicazione.

2025-06-18T00:14:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nella tecnologia di ricostruzione vocale per dispositivi audio indossabili

Nuovi metodi migliorano la chiarezza vocale in ambienti rumorosi per gli auricolari.

2025-06-17T23:26:10+00:00 ― 5 leggere min

Suono Mel-RoFormer: Avanzando il Recupero di Informazioni Musicali

Un nuovo modello migliora la separazione vocale e la trascrizione melodica nella musica.

2025-06-17T19:23:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Approfondimenti sui neuroni nei modelli di linguaggio

La ricerca svela come i neuroni nei modelli di linguaggio riconoscono le caratteristiche chiave del suono.

2025-06-17T11:17:25+00:00 ― 7 leggere min

Suono Nuovo modello migliora la qualità audio rimuovendo i suoni del respiro

Un nuovo modello semplifica la produzione audio eliminando automaticamente i suoni di respiro.

2025-06-17T10:28:50+00:00 ― 6 leggere min

Calcolo e linguaggio Sfide nel Riconoscimento del Parlante per i Modelli di Linguaggio Parlato

I modelli di linguaggio per il parlato sembrano promettenti, ma faticano a identificare i relatori nelle conversazioni.

2025-06-17T08:03:05+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Nuovo sistema per stimare le caratteristiche sonore delle stanze

Un approccio di apprendimento auto-supervisionato riduce la necessità di dati audio etichettati.

2025-06-17T04:00:10+00:00 ― 6 leggere min

Suono Progressi nel Riconoscimento delle Emozioni per Robot Sociali

Uno studio rivela il ruolo dei dati vocali nel riconoscere le emozioni nei parlanti spagnoli.

2025-06-17T02:23:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare la qualità del parlato in ambienti rumorosi

Un nuovo metodo migliora la chiarezza vocale in ambienti rumorosi.

2025-06-17T00:45:50+00:00 ― 5 leggere min

Suono Migliorare l'ascolto della musica per gli utenti di apparecchi acustici

Approcci innovativi mirano a migliorare la qualità musicale per chi ha problemi di udito.

2025-06-16T22:20:05+00:00 ― 6 leggere min

Suono GenRep: Un Nuovo Modo per Rilevare i Suoni delle Macchine

GenRep offre un approccio innovativo per identificare suoni insoliti delle macchine con dati limitati.

2025-06-16T20:42:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nella localizzazione delle sorgenti sonore con TF-Mamba

TF-Mamba migliora la localizzazione del suono usando un nuovo metodo che integra dati temporali e di frequenza.

2025-06-16T19:54:20+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Migliorare il Riconoscimento Automático della Voce con la Modularità

La ricerca sui sistemi ASR modulari punta a migliorare le performance in ambienti rumorosi.

2025-06-16T17:28:35+00:00 ― 4 leggere min

Elaborazione dell'audio e del parlato Nuovo approccio nel riconoscimento delle emozioni nel discorso

Un nuovo metodo combina significato e suono per migliorare il riconoscimento delle emozioni nel parlato.

2025-06-16T16:40:00+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Addestramento Efficiente di Modelli Vocali con Risorse Limitate

Questo articolo parla di metodi di allenamento efficienti per modelli di voce usando l'apprendimento autosupervisionato.

2025-06-16T15:02:50+00:00 ― 4 leggere min

Suono Avanzamenti nella Rilevazione di Eventi Sonori con MTDA-HSED

Una nuova architettura migliora il rilevamento del suono in diversi ambienti.

2025-06-16T10:59:55+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Avanzando la generazione musicale con MSLDM

Un nuovo modello migliora la generazione musicale concentrandosi su strumenti singoli.

2025-06-16T10:11:20+00:00 ― 5 leggere min

Suono Estrazione del parlato target causale con embedding dinamici: un nuovo approccio

Presentiamo DENSE, un metodo che migliora l'estrazione del discorso target usando embedding dinamici.

2025-06-16T08:34:10+00:00 ― 6 leggere min

Suono Nuovo approccio al trasferimento del timbro musicale

Un nuovo metodo migliora la trasformazione audio mantenendo melodia e qualità del suono.

2025-06-16T05:19:50+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Migliorare il Riconoscimento Vocale per Nomi Rari

Questo metodo migliora l'accuratezza del riconoscimento per i nomi rari nei risultati vocali.

2025-06-16T03:42:40+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzare nella localizzazione delle parole chiave in lingue a bassa risorsa

Migliorare l'identificazione delle parole parlate tramite indizi visivi in lingue poco supportate.

2025-06-16T02:05:30+00:00 ― 7 leggere min

Suono Avanzare nella rilevazione dei deepfake audio

Un nuovo modello migliora il rilevamento degli audio deepfake con apprendimento continuo.

2025-06-15T23:39:45+00:00 ― 6 leggere min

Suono Sviluppi nella diarisazione degli speaker audio-visivi

Una panoramica dei metodi, delle sfide e dei sistemi di diarizzazione audio-visiva dei relatori.

2025-06-15T21:14:00+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato BigCodec: Avanzando nel Codifica Vocale a Basso Bitrate

BigCodec migliora la qualità del suono nella trasmissione audio a bassa bitrate.

2025-06-15T19:36:50+00:00 ― 5 leggere min