Un nuovo metodo per rilevare le prime riflessioni in una stanza migliora l'esperienza audio.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo metodo per rilevare le prime riflessioni in una stanza migliora l'esperienza audio.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 7 leggere min
Un nuovo framework migliora il riconoscimento vocale e si adatta a vari compiti di parlato.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 4 leggere min
Un nuovo approccio migliora il rilevamento delle registrazioni audio false.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 5 leggere min
Ti presento NanoVoice, un modello di sintesi vocale veloce ed efficiente per audio personalizzato.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 5 leggere min
Un nuovo sistema migliora l'identificazione degli oratori durante le discussioni con più partecipanti.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 5 leggere min
Un nuovo modo per migliorare la classificazione attraverso la Distribuzione della Distanza Angolare.
Antonio Almudévar, Romain Serizel, Alfonso Ortega
― 6 leggere min
Nuovi metodi che usano modelli di linguaggio migliorano il riconoscimento dei suoni in mezzo al rumore di fondo.
Han Yin, Yang Xiao, Jisheng Bai
― 6 leggere min
Scopri come TSE migliora il riconoscimento vocale in ambienti affollati usando indizi testuali.
Ziyang Jiang, Xinyuan Qian, Jiahe Lei
― 6 leggere min
Un nuovo approccio migliora la valutazione della qualità del parlato tenendo conto del rumore di fondo.
Subrina Sultana, Donald S. Williamson
― 6 leggere min
Uno sguardo a come la compressione della gamma dinamica migliora le esperienze audio.
Haoran Sun, Dominique Fourer, Hichem Maaref
― 6 leggere min
Un nuovo modello migliora l'identificazione e la localizzazione dei suoni in modo efficace.
Jinbo Hu, Yin Cao, Ming Wu
― 7 leggere min
Presentiamo VQalAttent, un modello più semplice per generare discorsi macchina realistici.
Armani Rodriguez, Silvija Kokalj-Filipovic
― 5 leggere min
I ricercatori migliorano il rilevamento vocale per ricerche vocali più veloci e precise.
Anup Singh, Kris Demuynck, Vipul Arora
― 6 leggere min
Esplorare come i trucchi audio confondono i modelli linguistici.
Wanqi Yang, Yanda Li, Meng Fang
― 7 leggere min
Scopri come i CAM stanno cambiando il modo in cui produciamo e viviamo la musica.
Marco Pasini, Javier Nistal, Stefan Lattner
― 6 leggere min
Noro migliora la conversione vocale, rendendola efficace anche in ambienti rumorosi.
Haorui He, Yuchen Song, Yuancheng Wang
― 6 leggere min
Combinare modelli visivi con sistemi audio aumenta l'efficienza e le prestazioni.
Juan Yeo, Jinkwan Jang, Kyubyung Chae
― 7 leggere min
Scopri come la separazione delle sorgenti musicali e la trascrizione cambiano il modo in cui viviamo la musica.
Bradford Derby, Lucas Dunker, Samarth Galchar
― 7 leggere min
Nuovi metodi aiutano le macchine a trovare informazioni chiave dai contenuti parlati.
Yueqian Lin, Yuzhe Fu, Jingyang Zhang
― 6 leggere min
Nuovi modelli identificano la voce sintetica e combattono l'abuso della tecnologia vocale.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 5 leggere min
Scopri come SpeechRAG migliora le risposte a domande audio senza errori ASR.
Do June Min, Karel Mundnich, Andy Lapastora
― 5 leggere min
La tecnologia di miglioramento del parlato si adatta per ridurre il rumore e migliorare la comunicazione.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 5 leggere min
Esplorando come la lingua influisce sull'accuratezza del rilevamento dei DeepFake in diverse lingue.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 6 leggere min
Un modello leggero progettato per separare in modo efficace il parlato misto in ambienti rumorosi.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 6 leggere min
I ricercatori affrontano il problema del spoofing audio per migliorare la sicurezza del riconoscimento vocale.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 9 leggere min