Un'analisi della terminologia di genere nella tecnologia vocale e le sue implicazioni sociali.
Ariadna Sanchez, Alice Ross, Nina Markl
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Un'analisi della terminologia di genere nella tecnologia vocale e le sue implicazioni sociali.
Ariadna Sanchez, Alice Ross, Nina Markl
― 7 leggere min
Un nuovo framework migliora la rilevazione di eventi sonori sovrapposti in ambienti audio complessi.
Han Yin, Jisheng Bai, Yang Xiao
― 6 leggere min
Ricerche per migliorare l'identificazione dei suoni degli uccelli tramite tecniche di machine learning.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 7 leggere min
Un nuovo metodo migliora la creazione automatica di cover per pianoforte usando la tecnologia di trascrizione musicale esistente.
Kazuma Komiya, Yoshihisa Fukuhara
― 7 leggere min
Uno sguardo ai risultati della sfida Codec-SUPERB e ai metodi di misurazione delle performance del codec.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 5 leggere min
Il progetto MultiMed migliora il riconoscimento vocale automatico per una comunicazione sanitaria migliore.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 6 leggere min
Un modo nuovo per valutare la qualità audio senza bisogno di riferimenti puliti.
Jozef Coldenhoff, Milos Cernak
― 6 leggere min
Il framework ECHO migliora l'accuratezza della classificazione del suono usando etichette strutturate e un processo di apprendimento in due fasi.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 5 leggere min
Nuovo metodo migliora la chiarezza del parlato integrando informazioni visive.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 5 leggere min
Un nuovo approccio migliora la stima della direzione del suono per relatori in movimento in situazioni difficili.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 8 leggere min
Il recupero di momenti audio permette di individuare momenti specifici in registrazioni lunghe.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 5 leggere min
Safe Guard rileva discorsi d'odio in tempo reale durante le interazioni vocali nella VR sociale.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 6 leggere min
L'IA sta evolvendo per avere conversazioni più naturali.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 leggere min
Un approccio nuovo usa la risonanza magnetica in tempo reale per visualizzare i movimenti della produzione del parlato.
Hong Nguyen, Sean Foley, Kevin Huang
― 6 leggere min
Un nuovo metodo per rilevare le prime riflessioni in una stanza migliora l'esperienza audio.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 7 leggere min
Un progetto che sviluppa dataset di parlato e testo per lingue con risorse limitate.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 5 leggere min
Un nuovo framework migliora il riconoscimento vocale e si adatta a vari compiti di parlato.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 4 leggere min
Sono necessari nuovi metodi per rilevare le tecnologie di sintesi vocale deepfake avanzate.
Lam Pham, Phat Lam, Dat Tran
― 6 leggere min
Nuovi metodi aumentano l'accuratezza nell'identificare i suoni degli animali da dati limitati.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 5 leggere min
Nuovo metodo migliora l'integrazione del suono virtuale negli ambienti AR.
Francesc Lluís, Nils Meyer-Kahlen
― 6 leggere min
Un nuovo metodo punta a preservare la privacy della voce mentre consente una comunicazione efficace.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 leggere min
Nuovi metodi migliorano il riconoscimento vocale per lingue a bassa risorsa senza testo.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 5 leggere min
Nuovi metodi migliorano l'accuratezza nei sistemi di riconoscimento vocale usando la comprensione fonetica.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 6 leggere min
Questo framework migliora le animazioni in tempo reale sincronizzando alla perfezione il parlato e i gesti.
Zixin Guo, Jian Zhang
― 5 leggere min
Nuove caratteristiche acustiche migliorano le prestazioni dei sistemi ASR in ambienti rumorosi.
Muhammad A. Shah, Bhiksha Raj
― 5 leggere min
Una nuova funzione di perdita migliora la qualità audio allineando fase e ampiezza.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 6 leggere min
Un nuovo modello TTS aggiunge profondità emotiva alla voce generata dal computer.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 leggere min
Valutare i modelli di riconoscimento vocale per le sessioni di diagnosi dell'autismo.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 6 leggere min
Metodi recenti migliorano la chiarezza e la qualità audio usando modelli avanzati.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 6 leggere min
Un nuovo approccio migliora il rilevamento delle registrazioni audio false.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 5 leggere min
ESPnet-Codec migliora l'addestramento e la valutazione dei codec neurali per audio e parlato.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 7 leggere min
Esplorando metodi per adattare le RNN a diversi tassi di campionamento audio.
Alistair Carson, Alec Wright, Stefan Bilbao
― 6 leggere min
Nuovo modello raggiunge trascrizione vocale più veloce senza sacrificare l'accuratezza.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 4 leggere min
Scopri come gli embedding Matryoshka migliorano l'efficienza e la flessibilità nel riconoscimento vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 5 leggere min
Ti presento NanoVoice, un modello di sintesi vocale veloce ed efficiente per audio personalizzato.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 5 leggere min
Il nuovo modello VoiceGuider migliora il TTS per relatori diversi.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 6 leggere min
Un metodo innovativo per convertire voci tra lingue mantenendo caratteristiche uniche.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 leggere min
Nuove tecniche migliorano la qualità della voce espressiva tra diversi oratori.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 leggere min
Questo articolo esplora il ruolo delle metriche percettive nella classificazione dei generi musicali.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 5 leggere min
Un nuovo metodo migliora l'elaborazione del parlato e dell'audio in diversi compiti.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 6 leggere min