Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Suono Avanzamenti nel Modello Audio con GANs

Nuove tecniche migliorano la modellazione degli amplificatori per chitarra usando dati non abbinati e GAN.

2025-07-27T22:08:50+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nella Conversione Vocale Cross-Linguale

Un nuovo metodo migliora la conversione vocale tra lingue mantenendo i tratti del parlante.

2025-07-27T15:40:10+00:00 ― 4 leggere min

Suono Analizzando i modelli audio con la dissezione della rete

Un nuovo metodo per capire come i modelli audio fanno previsioni.

2025-07-27T12:25:50+00:00 ― 5 leggere min

Suono Avanzamento della Conversione Vocale con Consapevolezza Spaziale

Introduzione della conversione vocale spaziale per migliorare il realismo audio e l'immersione.

2025-07-27T01:54:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato WavRx: Un Nuovo Modello per Diagnosi Sanitarie Basate sul Parlato

WavRx analizza il linguaggio per la salute proteggendo la privacy, mostrando risultati diagnostici promettenti.

2025-07-26T21:51:20+00:00 ― 8 leggere min

Calcolo e linguaggio Analizzare il linguaggio per valutare il rischio di suicidio

La ricerca esplora come l'analisi del linguaggio possa prevedere il rischio di suicidio, tenendo conto delle differenze di genere.

2025-07-26T13:45:30+00:00 ― 5 leggere min

Suono Un nuovo strumento per la visualizzazione musicale

Questo documento presenta un sistema per creare immagini che rispondono alla musica.

2025-07-26T10:31:10+00:00 ― 7 leggere min

Robotica Imparare con il Suono: Una Nuova Era per i Robot

Un nuovo sistema aiuta i robot ad apprendere compiti utilizzando audio da dimostrazioni reali.

2025-07-26T09:42:35+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nella Rilevazione di Eventi Sonori per il 2024

Nuovi metodi migliorano l'accuratezza nel riconoscere suoni sovrapposti da diverse sorgenti audio.

2025-07-26T07:16:50+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la correzione degli errori di parola nei sistemi ASR

Un nuovo metodo combina caratteristiche acustiche e punteggi di fiducia per una correzione degli errori migliore.

2025-07-25T20:45:15+00:00 ― 5 leggere min

Crittografia e sicurezza Proteggere le Voci nell'Era dei Deepfake

SecureSpectra offre un modo nuovo per proteggere l'identità audio dai rischi dei deepfake.

2025-07-25T16:42:20+00:00 ― 6 leggere min

Apprendimento automatico Sviluppi nella previsione della diffusione acustica con PGI-DeepONet

Combinare fisica e geometria per migliorare le previsioni di scattering acustico.

2025-07-25T15:54:09+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Traduzione Vocale in Tempo Reale

Un nuovo sistema per la traduzione rapida e precisa del parlato in diverse lingue.

2025-07-25T15:05:10+00:00 ― 6 leggere min

Suono Nuovo Metodo per la Creazione della Voce nella Sintesi Vocale

Un metodo semplice per creare voci e controllare le emozioni nella sintesi vocale.

2025-07-25T14:16:35+00:00 ― 5 leggere min

Suono Avanzamenti nella separazione delle sorgenti musicali in tempo reale

Migliorare MMDenseNet per una separazione musicale veloce ed efficiente.

2025-07-25T12:39:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Nuovo metodo per un suono più chiaro in ambienti rumorosi

Un approccio innovativo per migliorare la chiarezza del suono usando tecniche avanzate di deep learning.

2025-07-25T11:02:15+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento dei parlanti con dati audio e visivi

Un sistema combina audio e video per migliorare l'accuratezza del riconoscimento degli speaker.

2025-07-25T10:13:40+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Dialogo Parlati

Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.

2025-07-25T08:36:30+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Cinese Attraverso la Regolarizzazione del Pinyin

Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.

2025-07-25T07:47:55+00:00 ― 7 leggere min

Suono Avanzamento della tecnologia degli altoparlanti e controllo del suono

Tecniche innovative migliorano il design degli altoparlanti e la direzione del suono.

2025-07-25T06:10:45+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Avanzamenti nei modelli di linguaggio multimodali

Un nuovo modello combina dati audio e visivi per una comprensione migliore.

2025-07-25T05:22:10+00:00 ― 6 leggere min

Suono Analizzando le tecniche per rilevare l’audio deepfake

Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.

2025-07-25T02:56:25+00:00 ― 5 leggere min

Suono Approcci innovativi alla creazione musicale con la tecnologia

Usare interfacce e modelli visivi per migliorare la generazione musicale.

2025-07-25T00:30:40+00:00 ― 5 leggere min

Visione artificiale e riconoscimento di modelli Approccio Innovativo per la Generazione Automatica di Effetti Sonori

Un nuovo sistema per creare effetti sonori sincronizzati nei video.

2025-07-24T23:42:05+00:00 ― 6 leggere min

Suono Migliorare la diarizzazione dei relatori con gli embeddings vocali

Uno studio per migliorare la segmentazione audio integrando gli embeddings degli speaker.

2025-07-24T21:16:20+00:00 ― 6 leggere min

Suono Un nuovo metodo leggero per la tecnologia di sintesi vocale

Questo articolo presenta un sistema TTS più efficiente che si adatta ai relatori.

2025-07-24T20:27:45+00:00 ― 6 leggere min

Calcolo e linguaggio Tecniche innovative nel riconoscimento vocale per lingue a risorse limitate

Nuovi metodi migliorano i modelli vocali per le lingue con pochi dati.

2025-07-24T19:39:10+00:00 ― 6 leggere min

Suono L'importanza di misurare l'incertezza nel riconoscimento delle emozioni nel parlato

Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.

2025-07-24T17:13:25+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Sviluppi nelle Tecniche di Allineamento dei Fonemi

Un nuovo metodo migliora l'accuratezza dell'allineamento dei fonemi per diverse applicazioni vocali.

2025-07-24T10:44:45+00:00 ― 6 leggere min

Calcolo e linguaggio La sfida linguistica di Nollywood: unire i dialetti

Uno studio sulla traduzione dell'inglese nigeriano per una migliore accessibilità nei film di Nollywood.

2025-07-24T04:16:05+00:00 ― 6 leggere min

Calcolo e linguaggio Un nuovo approccio all'apprendimento della rappresentazione del parlato

Quest'articolo presenta un sistema di codifica duale per un apprendimento efficace della rappresentazione vocale.

2025-07-24T01:50:20+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo approccio per la diarizzazione dei parlanti

Un sistema per il riconoscimento vocale in audio multilingue senza bisogno di dati estesi.

2025-07-24T01:01:45+00:00 ― 5 leggere min

Suono Avanzando nel trattamento musicale simbolico con MelodyT5

MelodyT5 offre un nuovo modo di creare e analizzare la musica usando notazione simbolica.

2025-07-23T21:47:25+00:00 ― 6 leggere min

Suono Dataset di Musica Sintetica Punta a Migliorare la Classificazione dei Generi

Il dataset GTZAN-synth sfrutta musica sintetica per migliorare i sistemi di tagging musicale.

2025-07-23T17:44:30+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato MelodyLM: Il Futuro della Creazione di Canzoni

MelodyLM semplifica la creazione di musica usando input testuali e vocali.

2025-07-23T16:55:55+00:00 ― 7 leggere min

Visione artificiale e riconoscimento di modelli Presentiamo il modello SAVE per la segmentazione audio-visiva

Il modello SAVE migliora la segmentazione audio-visiva con efficienza e precisione.

2025-07-23T16:07:20+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzamenti nella traduzione da parlato a testo con LLMs

Nuovo modello migliora la traduzione da parlato a testo usando grandi modelli linguistici.

2025-07-23T08:01:30+00:00 ― 7 leggere min

Suono Nuovo modello stima i movimenti della bocca nel parlare

La ricerca presenta un modello che collega le registrazioni sonore ai movimenti della bocca per il parlato.

2025-07-23T07:12:55+00:00 ― 6 leggere min

Calcolo e linguaggio Wav2Vec2.0 e il Suono del Riconoscimento Vocale

Questo articolo parla di come Wav2Vec2.0 elabora i suoni della voce usando la fonologia.

2025-07-23T05:35:45+00:00 ― 5 leggere min

Calcolo e linguaggio Avanzamenti nell'anonimizzazione dei parlanti multilingue

Migliorare la tecnologia di anonimizzazione dei parlanti per nove lingue per garantire la privacy.

2025-07-23T03:58:35+00:00 ― 5 leggere min