PLCMOS offre un nuovo modo per valutare la qualità del suono senza ascoltatori umani.
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
PLCMOS offre un nuovo modo per valutare la qualità del suono senza ascoltatori umani.
― 6 leggere min
Un nuovo metodo combina il riconoscimento vocale e l'identificazione del parlante per il discorso sovrapposto.
― 5 leggere min
Un nuovo metodo per la conversione della voce migliora la chiarezza e l'adattamento.
― 6 leggere min
Esplora come i modelli di diffusione trasformano il rumore in output di dati preziosi.
― 6 leggere min
Un nuovo modello migliora l'isolamento vocale in ambienti rumorosi.
― 5 leggere min
DeCoR aiuta le macchine a imparare suoni nuovi senza dimenticare quelli vecchi.
― 5 leggere min
Un nuovo metodo migliora la naturalezza e la varietà dell'output da testo a parlato.
― 6 leggere min
L'adattatore Treff migliora la classificazione audio con pochi dati etichettati.
― 5 leggere min
La ricerca mette in evidenza metodi efficaci per riconoscere le emozioni nel parlato usando gli embedding.
― 6 leggere min
Questa ricerca analizza i dialetti usando registrazioni audio per rivelare le loro somiglianze.
― 6 leggere min
Un nuovo metodo migliora la classificazione audio imparando nuovi suoni in modo efficiente.
― 4 leggere min
Un nuovo metodo allinea il parlato disfluente con il testo in modo efficiente.
― 6 leggere min
Un nuovo metodo per addestrare modelli di riconoscimento parole chiave usando supervisione debole in ambienti rumorosi.
― 7 leggere min
MERT affronta le sfide della modellazione musicale attraverso tecniche innovative di apprendimento auto-supervisionato.
― 6 leggere min
Il modello AVLIT combina suono e video per una migliore chiarezza del parlato in ambienti rumorosi.
― 6 leggere min
Scopri come SVVAD migliora il rilevamento dell'attività vocale per una verifica del parlante migliore.
― 5 leggere min
UnDiff migliora la qualità audio usando tecniche innovative di ripristino del parlato.
― 6 leggere min
Scopri il metodo innovativo del Multi-Window Masked Autoencoder per un'elaborazione audio migliorata.
― 5 leggere min
Un nuovo metodo unisce dati audio e visivi per riparare il linguaggio mancante.
― 6 leggere min
SingNet migliora il tracciamento del ritmo nelle voci cantate usando dati passati.
― 6 leggere min
Uno sguardo nuovo all'anonimizzazione degli oratori e al ruolo cruciale dei vocoder.
― 5 leggere min
Un nuovo metodo punta a migliorare il riconoscimento dell'audio falso senza perdere le conoscenze acquisite in passato.
― 6 leggere min
Il nuovo modello LinDiff migliora la velocità e la qualità della sintesi vocale.
― 5 leggere min
Tecniche per migliorare il riconoscimento vocale in mezzo al rumore di fondo.
― 6 leggere min
HiddenSinger migliora la qualità della voce cantando usando tecniche avanzate di intelligenza artificiale.
― 6 leggere min
Nuovi metodi migliorano la chiarezza del parlato per gli utenti di elettrolaringi.
― 6 leggere min
Ricerche recenti migliorano i modelli ASR per il norvegese, aumentando le prestazioni in Bokmål e Nynorsk.
― 5 leggere min
Il framework Gesper migliora la chiarezza del parlato in ambienti rumorosi.
― 5 leggere min
Questo articolo parla di un nuovo metodo per costruire sistemi ASR efficienti.
― 5 leggere min
Nuovi algoritmi migliorano le prestazioni di elaborazione audio su diverse frequenze di campionamento.
― 5 leggere min
Un nuovo modello migliora l'accuratezza della trascrizione musicale per più strumenti.
― 6 leggere min
Una guida per usare modelli AI per la musica sulla piattaforma Bela.
― 5 leggere min
Un nuovo modello migliora la conversione vocale semplificando le tecniche di separazione del parlato.
― 7 leggere min
Un nuovo metodo trasforma i segnali mono in esperienze stereo coinvolgenti.
― 6 leggere min
Un nuovo sistema migliora il rilevamento di audio manipolato attraverso tecniche innovative.
― 5 leggere min
LyricWhiz combina modelli avanzati per migliorare l'accuratezza della trascrizione dei testi in diverse lingue.
― 6 leggere min
Questo articolo parla delle sfide e delle tecniche per gestire il disequilibrio dei dataset nella classificazione audio.
― 6 leggere min
Whisper-AT combina il riconoscimento vocale e il tagging audio per migliorare le prestazioni.
― 6 leggere min
Un nuovo metodo migliora l'identificazione degli attori nel doppiaggio di film e serie TV.
― 5 leggere min
Nuovo metodo migliora la precisione nel trasformare l'audio del pianoforte in partiture.
― 4 leggere min