Il dataset GTZAN-synth sfrutta musica sintetica per migliorare i sistemi di tagging musicale.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Il dataset GTZAN-synth sfrutta musica sintetica per migliorare i sistemi di tagging musicale.
― 5 leggere min
MelodyLM semplifica la creazione di musica usando input testuali e vocali.
― 7 leggere min
Il modello SAVE migliora la segmentazione audio-visiva con efficienza e precisione.
― 6 leggere min
Nuovo modello migliora la traduzione da parlato a testo usando grandi modelli linguistici.
― 7 leggere min
La ricerca presenta un modello che collega le registrazioni sonore ai movimenti della bocca per il parlato.
― 6 leggere min
Questo articolo parla di come Wav2Vec2.0 elabora i suoni della voce usando la fonologia.
― 5 leggere min
Migliorare la tecnologia di anonimizzazione dei parlanti per nove lingue per garantire la privacy.
― 5 leggere min
Esplorare il ruolo della tecnologia nel migliorare l'efficienza e il benessere nell'acquacoltura.
― 6 leggere min
Un nuovo approccio combina l'analisi vocale con la protezione della privacy per la rilevazione della demenza.
― 6 leggere min
Nuovi metodi migliorano l'accuratezza nell'identificare i suoni degli animali per il monitoraggio della fauna selvatica.
― 4 leggere min
Un nuovo metodo migliora l'accuratezza nel riconoscere il parlato di più persone.
― 5 leggere min
Il BPE acustico migliora l'intelligibilità e la qualità del parlato nei sistemi TTS.
― 6 leggere min
Un nuovo metodo migliora la chiarezza del parlato in ambienti rumorosi usando reti neurali duali.
― 5 leggere min
Nuovo metodo migliora la gestione degli accenti nei sistemi ASR tramite codici specializzati.
― 5 leggere min
Nuovi metodi migliorano l'accuratezza e l'efficienza nei sistemi di riconoscimento vocale.
― 6 leggere min
Un nuovo metodo migliora la localizzazione del suono in ambienti diversi concentrandosi sull'apprendimento continuo.
― 6 leggere min
Un nuovo metodo migliora il riconoscimento degli eventi sonori integrando efficacemente nuove classi audio.
― 7 leggere min
WildDESED migliora i sistemi di rilevamento sonoro in ambienti domestici rumorosi.
― 6 leggere min
Uno studio rivela come diversi generi musicali attivano aree cerebrali distinte.
― 6 leggere min
Regole fondamentali per inviare articoli a NeurIPS 2024.
― 4 leggere min
Questo articolo parla di come migliorare la MUSICA con il calcolo approssimato per ottenere prestazioni migliori.
― 6 leggere min
Un nuovo sistema migliora l'accuratezza e l'efficienza nella trascrizione musicale multi-strumento.
― 5 leggere min
Un nuovo modello migliora la precisione nelle capacità di trascrizione vocale in più lingue.
― 5 leggere min
Sviluppi nel prevedere la qualità del parlato usando metodi efficienti per dispositivi mobili.
― 5 leggere min
Un metodo per migliorare il timbro nella produzione musicale attraverso i sintetizzatori.
― 6 leggere min
Questo studio valuta la tecnologia vocale in lingue a basso costo come l'arabo tunisino.
― 5 leggere min
La ricerca rivela rischi nei modelli di riconoscimento vocale multitasking come Whisper.
― 5 leggere min
TokenVerse semplifica l'analisi delle conversazioni parlate integrando più compiti in un unico modello.
― 6 leggere min
Nuovo dataset migliora la generazione audio da descrizioni testuali dettagliate.
― 5 leggere min
Un modo nuovo per gli artisti di collegare la creatività con la generazione audio dell'IA.
― 6 leggere min
Esplorare l'impatto dei modelli TTM sulla creazione musicale e sulle esperienze degli utenti.
― 7 leggere min
Questo articolo esamina la latenza di vari sistemi di diarizzazione degli speaker nell'elaborazione audio.
― 6 leggere min
Nuovo dataset punta a migliorare il riconoscimento vocale per i parlanti non nativi dell'inglese.
― 6 leggere min
Un nuovo framework, BiosERC, migliora il riconoscimento delle emozioni tenendo conto delle caratteristiche del parlante.
― 6 leggere min
Questo studio esamina come le preferenze vocali variano tra diversi ascoltatori.
― 5 leggere min
Questo articolo presenta un metodo per generare suoni precisi da video e testo.
― 7 leggere min
Un nuovo modello migliora la simulazione degli strumenti a corde per un suono realistico.
― 7 leggere min
Introducendo un metodo per avere un controllo migliore nell'editing del parlato.
― 5 leggere min
Uno studio per classificare la musica in base all'epoca usando le caratteristiche audio e le intuizioni degli artisti.
― 6 leggere min
Un nuovo modello migliora lo studio della comunicazione animale usando dati audio grezzi.
― 6 leggere min