Un nuovo metodo migliora l'abbinamento audio usando immagini, rendendo più realistici gli ambienti sonori.
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo metodo migliora l'abbinamento audio usando immagini, rendendo più realistici gli ambienti sonori.
― 7 leggere min
Articoli più recenti
― 6 leggere min
― 5 leggere min
― 7 leggere min
Articoli più recenti
I ricercatori stanno migliorando l'allenamento sulla pronuncia con nuove tecnologie per chi impara le lingue.
― 5 leggere min
HierVST trasforma le voci senza sforzo, migliorando la qualità audio senza bisogno di dati estesi.
― 5 leggere min
La ricerca sviluppa un modello per misurare con precisione l'engagement nelle conversazioni.
― 6 leggere min
DAVIS offre un modo nuovo per affrontare la separazione del suono audio e visivo.
― 5 leggere min
Un nuovo metodo migliora l'identificazione precisa degli oggetti che producono suoni nei video.
― 7 leggere min
DiffProsody migliora la velocità e la qualità della sintesi vocale grazie a una generazione di prosodia innovativa.
― 4 leggere min
Una nuova tecnologia punta a ripristinare la qualità della musica persa a causa della compressione del volume.
― 5 leggere min
Nuovo metodo promette di identificare più velocemente i disturbi del linguaggio come l'afasia.
― 5 leggere min
Un nuovo metodo utilizza suoni ultrasonici per confondere i sistemi di riconoscimento vocale senza essere rilevato.
― 6 leggere min
Nuovi metodi migliorano la qualità della voce sintetizzata usando l'apprendimento auto-supervisionato.
― 5 leggere min
Un nuovo metodo migliora la trascrizione di parole chiave rare nelle conversazioni aziendali.
― 6 leggere min
L'apprendimento federato migliora il riconoscimento vocale mantenendo i dati dell'utente privati.
― 6 leggere min
MusicLDM trasforma il testo in musica originale, offrendo nuove strade per la creatività.
― 7 leggere min
Nuovi metodi migliorano l'accuratezza nell'estrazione delle melodie cantate da audio misti.
― 7 leggere min
Nuovi metodi puntano a migliorare il captioning audio per una maggiore precisione ed efficienza.
― 5 leggere min
Nuovo modello migliora la chiarezza del parlato in ambienti rumorosi usando metodi innovativi.
― 5 leggere min
Uno studio sulle canzoni popolari coreane usando metodi analitici moderni.
― 8 leggere min
DiffDance crea sequenze di danza dettagliate che si abbinano alla musica in modo efficace.
― 6 leggere min
Esaminare l'equità nella tecnologia di trascrizione della voce cantata tra i generi.
― 8 leggere min
SeACo-Paraformer porta flessibilità e precisione alla tecnologia di riconoscimento vocale.
― 6 leggere min
Questo studio esplora i metodi di classificazione della qualità della voce e il loro significato nella comunicazione.
― 5 leggere min
Scopri come i nuovi algoritmi migliorano le tecniche di cancellazione del rumore per diverse applicazioni.
― 5 leggere min
AudioVMAF combina metriche video per una valutazione della qualità audio migliorata.
― 6 leggere min
Un nuovo metodo migliora la rilevazione di audio falso usando la modifica dei pesi adattivi.
― 6 leggere min
La steganalisi aiuta a scoprire messaggi nascosti nei multimedia, garantendo comunicazioni sicure.
― 4 leggere min
Trasformare i gesti per agenti virtuali mantenendo il significato.
― 6 leggere min
Esplorando come le reti neurali migliorano l'accuratezza della localizzazione delle sorgenti sonore.
― 6 leggere min
I ricercatori migliorano il riconoscimento vocale automatico per il punjabi usando tecniche di auto-addestramento innovative.
― 6 leggere min
Un nuovo modello migliora il riconoscimento vocale in ambienti rumorosi concentrandosi su un singolo parlante.
― 4 leggere min
Nuovi metodi mirano a proteggere la privacy del parlato nei sistemi di monitoraggio audio.
― 5 leggere min
Un nuovo dataset migliora la sintesi vocale catturando l'espressione emotiva senza fare affidamento sul testo.
― 6 leggere min
Nuove strategie per migliorare la stabilità dell'allenamento nella classificazione delle altezze musicali.
― 6 leggere min
Phoneme Hallucinator trasforma la conversione vocale con dati limitati per risultati più chiari.
― 5 leggere min
Un nuovo metodo crea gesti realistici a partire da audio vocale grezzo.
― 5 leggere min
Migliorare i sistemi ASR ibridi per il parlato bilingue usando unità grafiche.
― 6 leggere min
Un nuovo modello migliora l'allineamento di parlato e testo per una migliore riconoscimento automatico.
― 6 leggere min
Lip2Vec migliora il riconoscimento visivo del parlato usando meno dati etichettati.
― 7 leggere min
Nuovi metodi migliorano l'accuratezza e la velocità nei sistemi di riconoscimento vocale.
― 5 leggere min
O-1 migliora il riconoscimento vocale ottimizzando i metodi di auto-apprendimento.
― 5 leggere min
Un nuovo metodo migliora le prestazioni dell'ASR attraverso l'integrazione dei dati testuali.
― 6 leggere min