Scopri la Frechet Music Distance e il suo ruolo nella valutazione della musica generata dall'IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 8 leggere min
New Science Research Articles Everyday
Scopri la Frechet Music Distance e il suo ruolo nella valutazione della musica generata dall'IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 8 leggere min
Articoli più recenti
Sudha Krishnamurthy
― 5 leggere min
Quang-Anh N. D., Manh-Hung Ha, Thai Kim Dinh
― 6 leggere min
Hugo Flores García, Oriol Nieto, Justin Salamon
― 7 leggere min
Pascal Epple, Igor Shilov, Bozhidar Stevanoski
― 7 leggere min
Alon Levkovitch, Julian Salazar, Soroosh Mariooryad
― 7 leggere min
La ricerca esplora come i modelli di miglioramento del parlato mantengono l'accento delle sillabe nonostante il rumore.
Rangavajjala Sankara Bharadwaj, Jhansi Mallela, Sai Harshitha Aluru
― 6 leggere min
Un nuovo framework migliora l'allineamento di suoni e immagini nei video.
Kexin Li, Zongxin Yang, Yi Yang
― 6 leggere min
Rivoluzionando il testo parlato con voci più naturali e un'efficienza migliorata.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 6 leggere min
Scopri come i sistemi TTS stanno evolvendo per suonare più simili agli esseri umani.
Haowei Lou, Helen Paik, Wen Hu
― 7 leggere min
Un nuovo sistema trasforma il controllo audio attraverso descrizioni testuali dettagliate.
Sonal Kumar, Prem Seetharaman, Justin Salamon
― 7 leggere min
Combinare video e audio per rilevare meglio le emozioni.
Antonio Fernandez, Suzan Awinat
― 9 leggere min
YingSound trasforma la produzione video automatizzando la generazione di effetti sonori.
Zihao Chen, Haomin Zhang, Xinhan Di
― 6 leggere min
I ricercatori usano gli echi per mettere un watermark nell'audio, garantendo la protezione dei diritti dei creatori.
Christopher J. Tralie, Matt Amery, Benjamin Douglas
― 8 leggere min
I robot ora possono muoversi in ambienti complicati usando il suono grazie a SonicBoom.
Moonyoung Lee, Uksang Yoo, Jean Oh
― 6 leggere min
Il modello MASV migliora la verifica vocale, garantendo sicurezza ed efficienza.
Yang Liu, Li Wan, Yiteng Huang
― 5 leggere min
Esplorando l'impatto degli strumenti di AI sulla creazione musicale e le prospettive dei compositori.
Eleanor Row, György Fazekas
― 7 leggere min
La tecnologia di riconoscimento vocale migliora il riconoscimento dei numeri, soprattutto in ambienti rumorosi.
Ali Nasr-Esfahani, Mehdi Bekrani, Roozbeh Rajabi
― 5 leggere min
Migliorare le prestazioni dell'ASR multilingue per il giapponese tramite un fine-tuning mirato.
Mark Bajo, Haruka Fukukawa, Ryuji Morita
― 5 leggere min
Esplorare come i BCI decifrano il linguaggio immaginato per migliorare la comunicazione.
Byung-Kwan Ko, Jun-Young Kim, Seo-Hyun Lee
― 7 leggere min
SonicMesh usa il suono per migliorare il modello 3D del corpo umano a partire dalle immagini.
Xiaoxuan Liang, Wuyang Zhang, Hong Zhou
― 5 leggere min
Scopri le ultime novità nel riconoscimento vocale in tempo reale e come migliorano le nostre interazioni.
Rongxiang Wang, Zhiming Xu, Felix Xiaozhu Lin
― 5 leggere min
I ricercatori migliorano l'elaborazione del parlato usando Libri2Vox e tecniche di dati sintetici.
Yun Liu, Xuechen Liu, Xiaoxiao Miao
― 6 leggere min
Scopri come il TTS emotivo cambia la comunicazione con le macchine, rendendole più simpatiche.
Sho Inoue, Kun Zhou, Shuai Wang
― 6 leggere min
Scopri come i suoni degli insetti possono aiutare a monitorare gli ecosistemi e gestire i parassiti.
Yinxuan Wang, Sudip Vhaduri
― 7 leggere min
Nuovi metodi aiutano le macchine a trovare informazioni chiave dai contenuti parlati.
Yueqian Lin, Yuzhe Fu, Jingyang Zhang
― 6 leggere min
Scopri come l'IA semplifica la raccolta di dati vocali tramite il crowdsourcing.
Beomseok Lee, Marco Gaido, Ioan Calapodescu
― 5 leggere min
Esplora le differenze tra il linguaggio spontaneo e quello scritto nell'elaborazione audio.
Shahar Elisha, Andrew McDowell, Mariano Beguerisse-Díaz
― 7 leggere min
DAAN migliora come le macchine apprendono dai dati audio-visivi in scenari zero-shot.
RunLin Yu, Yipu Gong, Wenrui Li
― 6 leggere min
Nuovo metodo migliora il rilevamento di deepfake audio usando tecniche di apprendimento innovative.
Yujie Chen, Jiangyan Yi, Cunhang Fan
― 6 leggere min
Poiché le macchine producono musica, dobbiamo proteggere la creatività umana tramite metodi di rilevamento efficaci.
Yupei Li, Qiyang Sun, Hanqian Li
― 9 leggere min
Nuovi modelli identificano la voce sintetica e combattono l'abuso della tecnologia vocale.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 5 leggere min
TAME usa il suono per rilevare i droni, migliorando la sicurezza e il monitoraggio.
Zhenyuan Xiao, Huanran Hu, Guili Xu
― 6 leggere min
Scopri come CAMEL migliora la comprensione delle conversazioni in lingue miste.
He Wang, Xucheng Wan, Naijun Zheng
― 6 leggere min
La ricerca mostra che l'attività cerebrale può aiutare le macchine a riconoscere la musica in modo efficace.
Taketo Akama, Zhuohao Zhang, Pengcheng Li
― 7 leggere min
La tecnologia audio offre un modo economico per tenere traccia dei UAV in sicurezza.
Allen Lei, Tianchen Deng, Han Wang
― 6 leggere min
Un nuovo metodo di intelligenza artificiale analizza le voci per rilevare il rischio di cancro laringeo.
Mary Paterson, James Moor, Luisa Cutillo
― 7 leggere min
Scopri come la sintesi video-audio sta cambiando le esperienze mediatiche con un allineamento del suono perfetto.
Ho Kei Cheng, Masato Ishii, Akio Hayakawa
― 7 leggere min
Un nuovo sistema rivoluziona il modo in cui i sound designer creano audio per i video.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 8 leggere min
Uno sguardo a come il miglioramento del parlato migliora la comunicazione attraverso le caratteristiche dei dati.
Leying Zhang, Wangyou Zhang, Chenda Li
― 8 leggere min
Scopri come la tecnologia TTA unisce parole e suoni per esperienze audio più ricche.
Yuhang He, Yash Jain, Xubo Liu
― 7 leggere min
Un nuovo metodo migliora la sincronizzazione labiale nei video doppiati per un'esperienza di visione più naturale.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 7 leggere min
Scopri come Whisper migliora il riconoscimento vocale nelle conversazioni multilingue.
Jiahui Zhao, Hao Shi, Chenrui Cui
― 5 leggere min
Un nuovo approccio rende il riconoscimento dei suoni più accessibile ed efficiente.
Noriyuki Tonami, Wataru Kohno, Keisuke Imoto
― 7 leggere min
Scopri come l'anonimizzazione della voce protegge le informazioni personali in un mondo guidato dalla tecnologia.
Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi
― 6 leggere min
Unire audio e segnali visivi per migliorare il riconoscimento vocale in ambienti rumorosi.
Zhaofeng Lin, Naomi Harte
― 6 leggere min
La tecnologia di miglioramento del parlato si adatta per ridurre il rumore e migliorare la comunicazione.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 5 leggere min
Nuova tecnologia combina suoni e immagini per una migliore rilevazione dei droni.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 7 leggere min
Esplorando nuove tecnologie che rilevano suoni da fonti invisibili.
Yuhang He, Sangyun Shin, Anoop Cherian
― 5 leggere min
Scopri come Smooth-Foley migliora la generazione audio nei video.
Yaoyun Zhang, Xuenan Xu, Mengyue Wu
― 6 leggere min
Tecnica innovativa collega testi e melodie per creare canzoni migliori.
Jiaxing Yu, Xinda Wu, Yunfei Xu
― 7 leggere min
Migliorare la comprensione delle macchine delle dinamiche di turno di dialogo umano.
Hyunbae Jeon, Frederic Guintu, Rayvant Sahni
― 8 leggere min
Esplorando come la lingua influisce sull'accuratezza del rilevamento dei DeepFake in diverse lingue.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 6 leggere min
VERSA valuta bene la qualità del parlato, dell'audio e della musica.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 9 leggere min
Scopri come i modelli audio-linguistici stanno cambiando la tecnologia di riconoscimento sonoro.
Gongyu Chen, Haomin Zhang, Chaofan Ding
― 6 leggere min
Nuovi metodi migliorano il dialogo naturale nella tecnologia vocale.
Zhenqi Jia, Rui Liu
― 6 leggere min
Scopri come SpeechSSM trasforma la generazione di discorsi lunghi per interazioni migliori.
Se Jin Park, Julian Salazar, Aren Jansen
― 5 leggere min
Scopri come la traduzione in tempo reale trasforma la comunicazione tra le lingue.
Sara Papi, Peter Polak, Ondřej Bojar
― 6 leggere min
Un modello leggero progettato per separare in modo efficace il parlato misto in ambienti rumorosi.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 6 leggere min
I ricercatori affrontano il problema del spoofing audio per migliorare la sicurezza del riconoscimento vocale.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 9 leggere min
Un nuovo metodo sta cambiando il modo in cui le macchine apprendono dalla musica.
Julien Guinot, Elio Quinton, György Fazekas
― 7 leggere min
Nuova tecnologia trasforma i mormorii silenziosi in comunicazione udibile per chi ne ha bisogno.
Neil Shah, Shirish Karande, Vineet Gandhi
― 6 leggere min
Nuovi metodi nella sintesi vocale migliorano la chiarezza e l'adattabilità per diverse applicazioni.
Neil Shah, Ayan Kashyap, Shirish Karande
― 8 leggere min
Scopri la ricca tradizione dei canti della Chiesa Ortodossa Tewahedo Etiopica.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Li Su
― 7 leggere min
Scopri come ETTA trasforma le parole in esperienze audio creative.
Sang-gil Lee, Zhifeng Kong, Arushi Goel
― 6 leggere min
Una nuova prospettiva su come la musica influisce sulle nostre emozioni.
Dengming Zhang, Weitao You, Ziheng Liu
― 7 leggere min
Un nuovo sistema per creare danze di gruppo sincronizzate e naturali.
Kaixing Yang, Xulong Tang, Haoyu Wu
― 8 leggere min
Un nuovo approccio nel riconoscimento delle emozioni si concentra sui movimenti della bocca invece che sui suoni.
Shreya G. Upadhyay, Ali N. Salman, Carlos Busso
― 6 leggere min
Scopri come Stable-TTS migliora la tecnologia text-to-speech per un'esperienza simile a quella umana.
Wooseok Han, Minki Kang, Changhun Kim
― 7 leggere min
La tecnologia innovativa delle onde sonore offre nuove informazioni sulla velocità di camminata indoors.
Sheng Lyu, Chenshu Wu
― 6 leggere min
Gli assistenti audio stanno diventando più intelligenti con AQA-K, migliorando le risposte grazie alla conoscenza.
Abhirama Subramanyam Penamakuri, Kiran Chhatre, Akshat Jain
― 6 leggere min
Scopri come il testo può trasformarsi in audio con modelli all'avanguardia.
Chia-Yu Hung, Navonil Majumder, Zhifeng Kong
― 3 leggere min