Migliorare la sintesi vocale nelle lingue indiane usando unità inter-pausali.
Anusha Prakash, Hema A Murthy
― 7 leggere min
Scienza all'avanguardia spiegata semplicemente
Migliorare la sintesi vocale nelle lingue indiane usando unità inter-pausali.
Anusha Prakash, Hema A Murthy
― 7 leggere min
DeFT-Mamba migliora la separazione e la classificazione dei suoni in ambienti rumorosi.
Dongheon Lee, Jung-Woo Choi
― 5 leggere min
CADA-GAN migliora le performance dei sistemi ASR in vari ambienti di registrazione.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 6 leggere min
EVA unisce segnali audio e visivi per una migliore precisione nel riconoscimento vocale.
Yihan Wu, Yifan Peng, Yichen Lu
― 5 leggere min
Un nuovo framework semplifica il riconoscimento vocale in ambienti affollati.
Jinhan Wang, Weiqing Wang, Kunal Dhawan
― 6 leggere min
Llama-AVSR unisce audio e input visivi per migliorare l'accuratezza del riconoscimento vocale.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 7 leggere min
WMCodec migliora il watermarking audio per una sicurezza e autenticità migliori.
Junzuo Zhou, Jiangyan Yi, Yong Ren
― 5 leggere min
Nuovi modelli affrontano la classificazione dei suoni con dati di addestramento limitati.
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai
― 6 leggere min
Un nuovo approccio migliora il rilevamento di audio falso usando modelli preaddestrati.
Zhiyong Wang, Ruibo Fu, Zhengqi Wen
― 5 leggere min
Nuovo metodo migliora la qualità e l'efficienza della generazione del parlato.
Xin Qi, Ruibo Fu, Zhengqi Wen
― 4 leggere min
Un metodo che combina dati etichettati e non etichettati migliora il rilevamento delle sorgenti sonore.
Vadim Rozenfeld, Bracha Laufer Goldshtein
― 5 leggere min
Scopri come i suoni aiutano i giocatori nel tennis da tavolo.
Thomas Gossard, Julian Schmalzl, Andreas Ziegler
― 6 leggere min
Un sistema che dà la priorità alla melodia pur offrendo controllo sulla generazione di musica orchestrale.
Dinh-Viet-Toan Le, Yi-Hsuan Yang
― 5 leggere min
Un nuovo metodo utilizza l'ombreggiatura virtuale per migliorare il feedback sulla pronuncia degli studenti di lingue.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 6 leggere min
Nuovi metodi migliorano la qualità audio binaurale in ambienti sonori difficili.
Ami Berger, Vladimir Tourbabin, Jacob Donley
― 8 leggere min
Un nuovo metodo ASR aiuta la tecnologia a capire meglio il linguaggio dei bambini.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 6 leggere min
Il compositore usa dei prompt testuali per creare composizioni musicali complesse in formato MIDI.
Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara
― 6 leggere min
Una risorsa per studiare i modelli vocali nella musica idol giapponese.
Hitoshi Suda, Shunsuke Yoshida, Tomohiko Nakamura
― 6 leggere min
ViolinDiff migliora il realismo della musica per violino generata al computer.
Daewoong Kim, Hao-Wen Dong, Dasaem Jeong
― 5 leggere min
Combinare le caratteristiche migliora l'accuratezza nella classificazione dei suoni sott'acqua.
Amirmohammad Mohammadi, Iren'e Masabarakiza, Ethan Barnes
― 6 leggere min
Il transfer learning migliora la classificazione audio per la rilevazione dei suoni sottomarini.
Amirmohammad Mohammadi, Tejashri Kelhe, Davelle Carreiro
― 6 leggere min
La tecnologia AI sta cambiando il panorama delle truffe di vishing, aumentando i rischi per le persone.
João Figueiredo, Afonso Carvalho, Daniel Castro
― 6 leggere min
Un nuovo modello crea audio che si abbina al video, migliorando le esperienze media.
Ilpo Viertola, Vladimir Iashin, Esa Rahtu
― 5 leggere min
Un metodo per potenziare il riconoscimento automatico del parlato mescolando liste di parole chiave con modelli linguistici.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 5 leggere min
Uno studio sulle tecniche di imitazione vocale usando la tecnologia per migliorare la comunicazione.
Matthew Caren, Kartik Chandra, Joshua B. Tenenbaum
― 5 leggere min
Scopri come allenare efficacemente modelli di linguaggio con meno risorse etichettate.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 7 leggere min
Un'analisi della terminologia di genere nella tecnologia vocale e le sue implicazioni sociali.
Ariadna Sanchez, Alice Ross, Nina Markl
― 7 leggere min
Un nuovo framework migliora la rilevazione di eventi sonori sovrapposti in ambienti audio complessi.
Han Yin, Jisheng Bai, Yang Xiao
― 6 leggere min
Ricerche per migliorare l'identificazione dei suoni degli uccelli tramite tecniche di machine learning.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 7 leggere min
Un nuovo metodo migliora la creazione automatica di cover per pianoforte usando la tecnologia di trascrizione musicale esistente.
Kazuma Komiya, Yoshihisa Fukuhara
― 7 leggere min
Uno sguardo ai risultati della sfida Codec-SUPERB e ai metodi di misurazione delle performance del codec.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 5 leggere min
Il progetto MultiMed migliora il riconoscimento vocale automatico per una comunicazione sanitaria migliore.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 6 leggere min
Un modo nuovo per valutare la qualità audio senza bisogno di riferimenti puliti.
Jozef Coldenhoff, Milos Cernak
― 6 leggere min
Il framework ECHO migliora l'accuratezza della classificazione del suono usando etichette strutturate e un processo di apprendimento in due fasi.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 5 leggere min
Nuovo metodo migliora la chiarezza del parlato integrando informazioni visive.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 5 leggere min
Un nuovo approccio migliora la stima della direzione del suono per relatori in movimento in situazioni difficili.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 8 leggere min
Il recupero di momenti audio permette di individuare momenti specifici in registrazioni lunghe.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 5 leggere min
Safe Guard rileva discorsi d'odio in tempo reale durante le interazioni vocali nella VR sociale.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 6 leggere min
L'IA sta evolvendo per avere conversazioni più naturali.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 leggere min
Un approccio nuovo usa la risonanza magnetica in tempo reale per visualizzare i movimenti della produzione del parlato.
Hong Nguyen, Sean Foley, Kevin Huang
― 6 leggere min