Nuove tecniche migliorano la modellazione degli amplificatori per chitarra usando dati non abbinati e GAN.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Nuove tecniche migliorano la modellazione degli amplificatori per chitarra usando dati non abbinati e GAN.
― 7 leggere min
Un nuovo metodo migliora la conversione vocale tra lingue mantenendo i tratti del parlante.
― 4 leggere min
Un nuovo metodo per capire come i modelli audio fanno previsioni.
― 5 leggere min
Introduzione della conversione vocale spaziale per migliorare il realismo audio e l'immersione.
― 6 leggere min
WavRx analizza il linguaggio per la salute proteggendo la privacy, mostrando risultati diagnostici promettenti.
― 8 leggere min
La ricerca esplora come l'analisi del linguaggio possa prevedere il rischio di suicidio, tenendo conto delle differenze di genere.
― 5 leggere min
Questo documento presenta un sistema per creare immagini che rispondono alla musica.
― 7 leggere min
Un nuovo sistema aiuta i robot ad apprendere compiti utilizzando audio da dimostrazioni reali.
― 7 leggere min
Nuovi metodi migliorano l'accuratezza nel riconoscere suoni sovrapposti da diverse sorgenti audio.
― 6 leggere min
Un nuovo metodo combina caratteristiche acustiche e punteggi di fiducia per una correzione degli errori migliore.
― 5 leggere min
SecureSpectra offre un modo nuovo per proteggere l'identità audio dai rischi dei deepfake.
― 6 leggere min
Combinare fisica e geometria per migliorare le previsioni di scattering acustico.
― 5 leggere min
Un nuovo sistema per la traduzione rapida e precisa del parlato in diverse lingue.
― 6 leggere min
Un metodo semplice per creare voci e controllare le emozioni nella sintesi vocale.
― 5 leggere min
Migliorare MMDenseNet per una separazione musicale veloce ed efficiente.
― 5 leggere min
Un approccio innovativo per migliorare la chiarezza del suono usando tecniche avanzate di deep learning.
― 7 leggere min
Un sistema combina audio e video per migliorare l'accuratezza del riconoscimento degli speaker.
― 5 leggere min
Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.
― 7 leggere min
Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.
― 7 leggere min
Tecniche innovative migliorano il design degli altoparlanti e la direzione del suono.
― 5 leggere min
Un nuovo modello combina dati audio e visivi per una comprensione migliore.
― 6 leggere min
Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.
― 5 leggere min
Usare interfacce e modelli visivi per migliorare la generazione musicale.
― 5 leggere min
Un nuovo sistema per creare effetti sonori sincronizzati nei video.
― 6 leggere min
Uno studio per migliorare la segmentazione audio integrando gli embeddings degli speaker.
― 6 leggere min
Questo articolo presenta un sistema TTS più efficiente che si adatta ai relatori.
― 6 leggere min
Nuovi metodi migliorano i modelli vocali per le lingue con pochi dati.
― 6 leggere min
Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.
― 6 leggere min
Un nuovo metodo migliora l'accuratezza dell'allineamento dei fonemi per diverse applicazioni vocali.
― 6 leggere min
Uno studio sulla traduzione dell'inglese nigeriano per una migliore accessibilità nei film di Nollywood.
― 6 leggere min
Quest'articolo presenta un sistema di codifica duale per un apprendimento efficace della rappresentazione vocale.
― 6 leggere min
Un sistema per il riconoscimento vocale in audio multilingue senza bisogno di dati estesi.
― 5 leggere min
MelodyT5 offre un nuovo modo di creare e analizzare la musica usando notazione simbolica.
― 6 leggere min
Il dataset GTZAN-synth sfrutta musica sintetica per migliorare i sistemi di tagging musicale.
― 5 leggere min
MelodyLM semplifica la creazione di musica usando input testuali e vocali.
― 7 leggere min
Il modello SAVE migliora la segmentazione audio-visiva con efficienza e precisione.
― 6 leggere min
Nuovo modello migliora la traduzione da parlato a testo usando grandi modelli linguistici.
― 7 leggere min
La ricerca presenta un modello che collega le registrazioni sonore ai movimenti della bocca per il parlato.
― 6 leggere min
Questo articolo parla di come Wav2Vec2.0 elabora i suoni della voce usando la fonologia.
― 5 leggere min
Migliorare la tecnologia di anonimizzazione dei parlanti per nove lingue per garantire la privacy.
― 5 leggere min