GAMA migliora l'elaborazione audio unendo intuizioni su suono e linguaggio.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
GAMA migliora l'elaborazione audio unendo intuizioni su suono e linguaggio.
― 6 leggere min
GigaSpeech 2 offre un'enorme raccolta di dati per le lingue a bassa risorsa per migliorare il riconoscimento vocale.
― 5 leggere min
Un nuovo modello migliora la tecnologia da testo a voce con efficienza e adattabilità.
― 6 leggere min
Un nuovo metodo per ottimizzare l'analisi e la sintesi del parlato usando i movimenti del tratto vocale.
― 7 leggere min
Questo studio esamina come i gesti influenzano l'apprendimento dagli agenti virtuali.
― 7 leggere min
Scopri la diarizzazione degli speaker online e il suo significato in diverse applicazioni.
― 7 leggere min
Nuovo strumento di benchmark valuta i token audio discreti per vari compiti di elaborazione del parlato.
― 9 leggere min
Un nuovo metodo per la generazione di musica usando matrici di autosimilarità e sistemi di attenzione.
― 7 leggere min
Nuove tecniche migliorano la modellazione degli amplificatori per chitarra usando dati non abbinati e GAN.
― 7 leggere min
Un nuovo metodo per capire come i modelli audio fanno previsioni.
― 5 leggere min
Introduzione della conversione vocale spaziale per migliorare il realismo audio e l'immersione.
― 6 leggere min
La ricerca esplora come l'analisi del linguaggio possa prevedere il rischio di suicidio, tenendo conto delle differenze di genere.
― 5 leggere min
Questo documento presenta un sistema per creare immagini che rispondono alla musica.
― 7 leggere min
Un nuovo sistema aiuta i robot ad apprendere compiti utilizzando audio da dimostrazioni reali.
― 7 leggere min
Nuovi metodi migliorano l'accuratezza nel riconoscere suoni sovrapposti da diverse sorgenti audio.
― 6 leggere min
Un nuovo metodo combina caratteristiche acustiche e punteggi di fiducia per una correzione degli errori migliore.
― 5 leggere min
SecureSpectra offre un modo nuovo per proteggere l'identità audio dai rischi dei deepfake.
― 6 leggere min
Combinare fisica e geometria per migliorare le previsioni di scattering acustico.
― 5 leggere min
Un nuovo sistema per la traduzione rapida e precisa del parlato in diverse lingue.
― 6 leggere min
Un metodo semplice per creare voci e controllare le emozioni nella sintesi vocale.
― 5 leggere min
Migliorare MMDenseNet per una separazione musicale veloce ed efficiente.
― 5 leggere min
Un nuovo metodo migliora il dialogo macchina grazie a dati pseudo-stereo.
― 7 leggere min
Questo studio presenta un dataset e un metodo per migliorare l'accuratezza dell'ASR cinese usando il Pinyin.
― 7 leggere min
Tecniche innovative migliorano il design degli altoparlanti e la direzione del suono.
― 5 leggere min
Questo studio si concentra sul miglioramento della rilevazione dell'audio deepfake usando metodi avanzati.
― 5 leggere min
Usare interfacce e modelli visivi per migliorare la generazione musicale.
― 5 leggere min
Un nuovo sistema per creare effetti sonori sincronizzati nei video.
― 6 leggere min
Uno studio per migliorare la segmentazione audio integrando gli embeddings degli speaker.
― 6 leggere min
Questo articolo presenta un sistema TTS più efficiente che si adatta ai relatori.
― 6 leggere min
Nuovi metodi migliorano i modelli vocali per le lingue con pochi dati.
― 6 leggere min
Capire l'incertezza aumenta l'accuratezza del riconoscimento delle emozioni in situazioni reali.
― 6 leggere min
Un nuovo metodo migliora l'accuratezza dell'allineamento dei fonemi per diverse applicazioni vocali.
― 6 leggere min
Uno studio sulla traduzione dell'inglese nigeriano per una migliore accessibilità nei film di Nollywood.
― 6 leggere min
Quest'articolo presenta un sistema di codifica duale per un apprendimento efficace della rappresentazione vocale.
― 6 leggere min
MelodyT5 offre un nuovo modo di creare e analizzare la musica usando notazione simbolica.
― 6 leggere min
Il dataset GTZAN-synth sfrutta musica sintetica per migliorare i sistemi di tagging musicale.
― 5 leggere min
MelodyLM semplifica la creazione di musica usando input testuali e vocali.
― 7 leggere min
Il modello SAVE migliora la segmentazione audio-visiva con efficienza e precisione.
― 6 leggere min
Nuovo modello migliora la traduzione da parlato a testo usando grandi modelli linguistici.
― 7 leggere min
La ricerca presenta un modello che collega le registrazioni sonore ai movimenti della bocca per il parlato.
― 6 leggere min