Le tecniche di anonimizzazione degli speaker proteggono le informazioni personali mantenendo chiara la comunicazione.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Le tecniche di anonimizzazione degli speaker proteggono le informazioni personali mantenendo chiara la comunicazione.
― 6 leggere min
Nuovi metodi migliorano la chiarezza vocale in ambienti rumorosi per gli auricolari.
― 5 leggere min
Un nuovo modello migliora la separazione vocale e la trascrizione melodica nella musica.
― 5 leggere min
La ricerca svela come i neuroni nei modelli di linguaggio riconoscono le caratteristiche chiave del suono.
― 7 leggere min
Un nuovo modello semplifica la produzione audio eliminando automaticamente i suoni di respiro.
― 6 leggere min
I modelli di linguaggio per il parlato sembrano promettenti, ma faticano a identificare i relatori nelle conversazioni.
― 5 leggere min
Un approccio di apprendimento auto-supervisionato riduce la necessità di dati audio etichettati.
― 6 leggere min
Uno studio rivela il ruolo dei dati vocali nel riconoscere le emozioni nei parlanti spagnoli.
― 6 leggere min
Un nuovo metodo migliora la chiarezza vocale in ambienti rumorosi.
― 5 leggere min
Approcci innovativi mirano a migliorare la qualità musicale per chi ha problemi di udito.
― 6 leggere min
GenRep offre un approccio innovativo per identificare suoni insoliti delle macchine con dati limitati.
― 5 leggere min
TF-Mamba migliora la localizzazione del suono usando un nuovo metodo che integra dati temporali e di frequenza.
― 5 leggere min
La ricerca sui sistemi ASR modulari punta a migliorare le performance in ambienti rumorosi.
― 4 leggere min
Un nuovo metodo combina significato e suono per migliorare il riconoscimento delle emozioni nel parlato.
― 7 leggere min
Questo articolo parla di metodi di allenamento efficienti per modelli di voce usando l'apprendimento autosupervisionato.
― 4 leggere min
Una nuova architettura migliora il rilevamento del suono in diversi ambienti.
― 5 leggere min
Un nuovo modello migliora la generazione musicale concentrandosi su strumenti singoli.
― 5 leggere min
Presentiamo DENSE, un metodo che migliora l'estrazione del discorso target usando embedding dinamici.
― 6 leggere min
Un nuovo metodo migliora la trasformazione audio mantenendo melodia e qualità del suono.
― 6 leggere min
Questo metodo migliora l'accuratezza del riconoscimento per i nomi rari nei risultati vocali.
― 6 leggere min
Migliorare l'identificazione delle parole parlate tramite indizi visivi in lingue poco supportate.
― 7 leggere min
Un nuovo modello migliora il rilevamento degli audio deepfake con apprendimento continuo.
― 6 leggere min
Una panoramica dei metodi, delle sfide e dei sistemi di diarizzazione audio-visiva dei relatori.
― 5 leggere min
BigCodec migliora la qualità del suono nella trasmissione audio a bassa bitrate.
― 5 leggere min
Nuovo metodo migliora la cattura del suono usando microfoni circolari per una qualità audio migliore.
― 5 leggere min
Questo articolo parla dei vantaggi di semplificare i modelli transformer per i compiti di riconoscimento vocale.
― 5 leggere min
Sortformer integra la diarizzazione degli speaker e l'ASR per migliorare l'elaborazione audio.
― 5 leggere min
Un modo nuovo per creare suoni di pianoforte realistici usando la separazione dei componenti sonori.
― 8 leggere min
ParaEVITS migliora l'espressione emotiva nel TTS attraverso la guida del linguaggio naturale.
― 5 leggere min
Scopri come l'audio inpainting ripara le parti mancanti dei segnali.
― 5 leggere min
Nuovi metodi migliorano la comprensione del linguaggio parlato grazie a un dataset innovativo.
― 5 leggere min
Nuovi metodi migliorano la conversazione uomo-robot rendendo il parlato più chiaro.
― 5 leggere min
Nuovi metodi migliorano l'accesso alle notizie parlate segmentando meglio gli argomenti.
― 7 leggere min
Questa ricerca analizza le performance di Mamba nei compiti di parola, mettendo in evidenza la ricostruzione e il riconoscimento dei suoni.
― 6 leggere min
Un nuovo metodo per il tagging musicale usando il few-shot learning mostra risultati promettenti.
― 7 leggere min
FlowSep introduce un metodo nuovo per estrarre suoni usando query linguistiche.
― 5 leggere min
SSR-Speech offre nuove soluzioni per la generazione e la modifica del parlato.
― 5 leggere min
I progressi nell'IA rendono comuni gli audio falsi, spingendo a cercare modi per rilevarli.
― 6 leggere min
Il nuovo modello migliora la generazione del parlato in diversi dialetti delle lingue a accento tonale.
― 5 leggere min
Un nuovo metodo migliora l'accuratezza della localizzazione sonora garantendo la privacy dei dati.
― 4 leggere min