BandIt migliora la separazione delle sorgenti audio usando tecniche innovative di deep learning.
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
BandIt migliora la separazione delle sorgenti audio usando tecniche innovative di deep learning.
― 5 leggere min
Adattare la tecnologia di riconoscimento delle emozioni migliora l'accuratezza per diversi oratori.
― 7 leggere min
Uno studio svela gravi minacce nel riconoscimento vocale usando campioni morph.
― 5 leggere min
Un dataset dettagliato che combina le sonate di Mozart con le performance al pianoforte e le annotazioni di esperti.
― 6 leggere min
Un nuovo modello leggero migliora la stima del pitch usando tecniche di apprendimento auto-supervisionato.
― 7 leggere min
Un nuovo approccio per migliorare l'identificazione e l'analisi dei segmenti musicali.
― 5 leggere min
Nuovi metodi sviluppati per identificare canzoni false tra le crescenti preoccupazioni.
― 5 leggere min
Cleancoder migliora i sistemi ASR riducendo il rumore di fondo per una comprensione del parlato più chiara.
― 5 leggere min
RADIO crea volti parlanti realistici usando solo un'immagine di riferimento.
― 6 leggere min
RoDia offre campioni audio fondamentali per identificare i dialetti rumeni.
― 5 leggere min
Esplorare come i gesti e le espressioni migliorano la nostra comprensione del linguaggio parlato.
― 7 leggere min
Esplorare nuovi metodi nella rilevazione e localizzazione del suono usando dati sintetici.
― 6 leggere min
Un nuovo sistema aiuta i musicisti a vivere il suono su un palco virtuale.
― 6 leggere min
Nuovo metodo migliora il rilevamento di segmenti audio falsi nelle registrazioni.
― 5 leggere min
I computer stanno imparando a separare ritmo e armonia nella musica per applicazioni creative.
― 4 leggere min
MuLanTTS di Microsoft offre capacità di sintesi vocale francese naturali ed espressive.
― 5 leggere min
Nuovi set di dati e metodi migliorano la classificazione dei veicoli per una gestione del traffico migliore.
― 6 leggere min
Nuovi metodi migliorano l'accuratezza e la velocità nella tecnologia di riconoscimento vocale.
― 6 leggere min
Un nuovo sintetizzatore migliora la generazione di effetti sonori realistici per i media.
― 6 leggere min
Un nuovo approccio aumenta la stima della fiducia nei sistemi ASR per una maggiore precisione.
― 5 leggere min
Introducendo un framework per una sintesi vocale più naturale ed espressiva.
― 6 leggere min
Scopri come la tecnologia aiuta a categorizzare i generi musicali in modo efficiente.
― 6 leggere min
Un approccio unificato per valutare l'alimentazione dei pesci usando dati audio e video.
― 5 leggere min
Un nuovo metodo migliora la creazione di video con teste parlanti emotivamente espressive.
― 7 leggere min
Questo studio esplora i problemi legati all'uso delle convnet per la creazione di filterbank audio.
― 5 leggere min
Il modello CLAP collega l'elaborazione audio e testuale per diverse applicazioni.
― 4 leggere min
Un progetto punta a migliorare l'elaborazione del parlato francese usando l'apprendimento auto-supervisionato.
― 5 leggere min
Nuovi metodi migliorano il modo in cui le macchine riconoscono il ritmo della parola e le emozioni.
― 6 leggere min
Un nuovo approccio migliora la stima del suono in spazi con oggetti che disperdono.
― 6 leggere min
Analizza come l'indecidibilità influisca sulla composizione e produzione musicale oggi.
― 4 leggere min
Questo articolo esplora i progressi nella diarizzazione degli speaker utilizzando modelli di linguaggio per una maggiore precisione.
― 5 leggere min
Questo studio migliora la capacità dei sistemi ASR di riconoscere il parlato dei bambini.
― 6 leggere min
I ricercatori stanno esplorando la tecnologia di rilevamento audio per migliorare il riconoscimento dei pedoni nelle aree urbane.
― 6 leggere min
Nuovo metodo migliora la localizzazione delle sorgenti sonore e la separazione dei campi.
― 6 leggere min
Un nuovo metodo migliora la sintesi del suono della batteria concentrandosi su elementi transitori netti.
― 6 leggere min
I ricercatori stanno sviluppando dati vocali sintetici per proteggere la privacy nel riconoscimento vocale.
― 5 leggere min
VoxtLM combina riconoscimento vocale, sintesi, generazione di testo e continuazione in un unico modello.
― 4 leggere min
Nuovo sistema migliora il riconoscimento vocale usando richieste consapevoli del contesto.
― 4 leggere min
EnCodecMAE combina l'apprendimento auto-supervisionato e i codec audio per migliorare le performance nei compiti audio.
― 5 leggere min
Uno studio sull'uso del machine learning per identificare i suoni dei bambini per la valutazione dell'ASD.
― 5 leggere min