Ingegneria elettrica e scienze dei sistemi - Elaborazione dell'audio e del parlato

RSS

Apprendimento automatico Sfide nelle tecniche di watermarking audio

Indagare le vulnerabilità nei metodi di watermarking audio contro minacce reali.

2025-07-30T13:18:20+00:00 ― 8 leggere min

Suono Presentiamo PianoMotion10M: un nuovo dataset per imparare il pianoforte

PianoMotion10M offre movimenti delle mani dettagliati per aiutare chi impara a suonare il pianoforte.

2025-07-30T01:09:35+00:00 ― 6 leggere min

Visione artificiale e riconoscimento di modelli Progressi nella Generazione di Suoni da Video

Un nuovo modello migliora il match del suono con le azioni visive nei video.

2025-07-29T23:32:25+00:00 ― 11 leggere min

Suono Sviluppi nel Rendering Audio 3D con AVGS

Il nuovo modello migliora le esperienze audio realistiche negli ambienti virtuali.

2025-07-29T20:18:05+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Utilizzare la tecnologia audio per il tracciamento dei pedoni

Questo studio esamina i metodi audio per tracciare i movimenti dei pedoni nelle aree urbane.

2025-07-29T17:52:20+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Avanzando l'audio Foley con il dataset MINT

Un nuovo dataset migliora la creazione di audio foley per contenuti multimediali.

2025-07-29T17:03:45+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Avanzamenti nel Riconoscimento Vocale Automatico con TTA Dinamico

Nuovi metodi migliorano il riconoscimento vocale in ambienti rumorosi usando tecniche adattive.

2025-07-29T13:49:25+00:00 ― 7 leggere min

Suono SPEAR: Un Nuovo Approccio all'Analisi del Suono

SPEAR prevede il comportamento sonoro in spazi 3D usando una raccolta di dati minimale.

2025-07-29T10:35:05+00:00 ― 6 leggere min

Calcolo e linguaggio Avanzamenti nella traduzione del parlato con code-switching

Un nuovo metodo migliora la traduzione del parlato in lingue miste in inglese.

2025-07-29T09:46:30+00:00 ― 5 leggere min

Suono Migliorare la verifica del parlante nelle comunicazioni radio

Un nuovo metodo migliora l'accuratezza della verifica dell'oratore in ambienti radio difficili.

2025-07-29T08:57:55+00:00 ― 7 leggere min

Suono Migliorare gli attacchi backdoor nel riconoscimento vocale

Nuovo metodo punta sui cambiamenti di ritmo per attacchi vocali furtivi.

2025-07-29T08:09:20+00:00 ― 6 leggere min

Suono GAMA: Un Nuovo Modello per la Comprensione del Suono

GAMA migliora l'elaborazione audio unendo intuizioni su suono e linguaggio.

2025-07-29T04:55:00+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato AV-CrossNet: Migliorare il riconoscimento vocale nel rumore

Un nuovo sistema aiuta a separare il parlato dal rumore per una comunicazione più chiara.

2025-07-29T03:17:50+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato GigaSpeech 2: Un Nuovo Dataset per il Riconoscimento Vocale

GigaSpeech 2 offre un'enorme raccolta di dati per le lingue a bassa risorsa per migliorare il riconoscimento vocale.

2025-07-29T02:29:15+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Rivoluzionare il Text-to-Speech con DiTTo-TTS

Un nuovo modello migliora la tecnologia da testo a voce con efficienza e adattabilità.

2025-07-29T01:40:40+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato Nuovo Framework per una Produzione del Parlato Chiara

Un nuovo metodo per ottimizzare l'analisi e la sintesi del parlato usando i movimenti del tratto vocale.

2025-07-28T20:49:10+00:00 ― 7 leggere min

Interazione uomo-macchina L'impatto dei gesti nelle spiegazioni virtuali

Questo studio esamina come i gesti influenzano l'apprendimento dagli agenti virtuali.

2025-07-28T19:12:00+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato DExter: Un Nuovo Approccio alla Performance Pianistica Espressiva

DExter usa l'IA per creare musica per pianoforte espressiva da spartiti scritti.

2025-07-28T10:17:35+00:00 ― 6 leggere min

Suono Diarizzazione del Parlante in Tempo Reale: Un'Panoramica

Scopri la diarizzazione degli speaker online e il suo significato in diverse applicazioni.

2025-07-28T06:14:40+00:00 ― 7 leggere min

Suono Valutare i Token Audio Discreti per i Compiti di Parola

Nuovo strumento di benchmark valuta i token audio discreti per vari compiti di elaborazione del parlato.

2025-07-28T04:37:30+00:00 ― 9 leggere min

Suono Sviluppi nella generazione di musica strutturata con SING

Un nuovo metodo per la generazione di musica usando matrici di autosimilarità e sistemi di attenzione.

2025-07-28T01:23:10+00:00 ― 7 leggere min

Suono Avanzamenti nel Modello Audio con GANs

Nuove tecniche migliorano la modellazione degli amplificatori per chitarra usando dati non abbinati e GAN.

2025-07-27T22:08:50+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nella Conversione Vocale Cross-Linguale

Un nuovo metodo migliora la conversione vocale tra lingue mantenendo i tratti del parlante.

2025-07-27T15:40:10+00:00 ― 4 leggere min

Suono Analizzando i modelli audio con la dissezione della rete

Un nuovo metodo per capire come i modelli audio fanno previsioni.

2025-07-27T12:25:50+00:00 ― 5 leggere min

Suono Avanzamento della Conversione Vocale con Consapevolezza Spaziale

Introduzione della conversione vocale spaziale per migliorare il realismo audio e l'immersione.

2025-07-27T01:54:15+00:00 ― 6 leggere min

Elaborazione dell'audio e del parlato WavRx: Un Nuovo Modello per Diagnosi Sanitarie Basate sul Parlato

WavRx analizza il linguaggio per la salute proteggendo la privacy, mostrando risultati diagnostici promettenti.

2025-07-26T21:51:20+00:00 ― 8 leggere min

Calcolo e linguaggio Analizzare il linguaggio per valutare il rischio di suicidio

La ricerca esplora come l'analisi del linguaggio possa prevedere il rischio di suicidio, tenendo conto delle differenze di genere.

2025-07-26T13:45:30+00:00 ― 5 leggere min

Suono Un nuovo strumento per la visualizzazione musicale

Questo documento presenta un sistema per creare immagini che rispondono alla musica.

2025-07-26T10:31:10+00:00 ― 7 leggere min

Robotica Imparare con il Suono: Una Nuova Era per i Robot

Un nuovo sistema aiuta i robot ad apprendere compiti utilizzando audio da dimostrazioni reali.

2025-07-26T09:42:35+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Progressi nella Rilevazione di Eventi Sonori per il 2024

Nuovi metodi migliorano l'accuratezza nel riconoscere suoni sovrapposti da diverse sorgenti audio.

2025-07-26T07:16:50+00:00 ― 6 leggere min

Calcolo e linguaggio Migliorare la correzione degli errori di parola nei sistemi ASR

Un nuovo metodo combina caratteristiche acustiche e punteggi di fiducia per una correzione degli errori migliore.

2025-07-25T20:45:15+00:00 ― 5 leggere min

Crittografia e sicurezza Proteggere le Voci nell'Era dei Deepfake

SecureSpectra offre un modo nuovo per proteggere l'identità audio dai rischi dei deepfake.

2025-07-25T16:42:20+00:00 ― 6 leggere min

Apprendimento automatico Sviluppi nella previsione della diffusione acustica con PGI-DeepONet

Combinare fisica e geometria per migliorare le previsioni di scattering acustico.

2025-07-25T15:54:09+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Traduzione Vocale in Tempo Reale

Un nuovo sistema per la traduzione rapida e precisa del parlato in diverse lingue.

2025-07-25T15:05:10+00:00 ― 6 leggere min

Suono Nuovo Metodo per la Creazione della Voce nella Sintesi Vocale

Un metodo semplice per creare voci e controllare le emozioni nella sintesi vocale.

2025-07-25T14:16:35+00:00 ― 5 leggere min

Suono Avanzamenti nella separazione delle sorgenti musicali in tempo reale

Migliorare MMDenseNet per una separazione musicale veloce ed efficiente.

2025-07-25T12:39:25+00:00 ― 5 leggere min

Elaborazione dell'audio e del parlato Nuovo metodo per un suono più chiaro in ambienti rumorosi

Un approccio innovativo per migliorare la chiarezza del suono usando tecniche avanzate di deep learning.

2025-07-25T11:02:15+00:00 ― 7 leggere min

Elaborazione dell'audio e del parlato Migliorare il riconoscimento dei parlanti con dati audio e visivi

Un sistema combina audio e video per migliorare l'accuratezza del riconoscimento degli speaker.

2025-07-25T10:13:40+00:00 ― 5 leggere min

Calcolo e linguaggio Sviluppi nei Sistemi di Dialogo Parlati

Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.

2025-07-25T08:36:30+00:00 ― 7 leggere min

Calcolo e linguaggio Migliorare il Riconoscimento Vocale Cinese Attraverso la Regolarizzazione del Pinyin

Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.

2025-07-25T07:47:55+00:00 ― 7 leggere min