Un nuovo modello TTS aggiunge profondità emotiva alla voce generata dal computer.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Un nuovo modello TTS aggiunge profondità emotiva alla voce generata dal computer.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 leggere min
Valutare i modelli di riconoscimento vocale per le sessioni di diagnosi dell'autismo.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 6 leggere min
Metodi recenti migliorano la chiarezza e la qualità audio usando modelli avanzati.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 6 leggere min
Un nuovo approccio migliora il rilevamento delle registrazioni audio false.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 5 leggere min
ESPnet-Codec migliora l'addestramento e la valutazione dei codec neurali per audio e parlato.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 7 leggere min
Esplorando metodi per adattare le RNN a diversi tassi di campionamento audio.
Alistair Carson, Alec Wright, Stefan Bilbao
― 6 leggere min
Nuovo modello raggiunge trascrizione vocale più veloce senza sacrificare l'accuratezza.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 4 leggere min
Scopri come gli embedding Matryoshka migliorano l'efficienza e la flessibilità nel riconoscimento vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 5 leggere min
Ti presento NanoVoice, un modello di sintesi vocale veloce ed efficiente per audio personalizzato.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 5 leggere min
Il nuovo modello VoiceGuider migliora il TTS per relatori diversi.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 6 leggere min
Un metodo innovativo per convertire voci tra lingue mantenendo caratteristiche uniche.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 leggere min
Nuove tecniche migliorano la qualità della voce espressiva tra diversi oratori.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 leggere min
Questo articolo esplora il ruolo delle metriche percettive nella classificazione dei generi musicali.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 5 leggere min
Un nuovo metodo migliora l'elaborazione del parlato e dell'audio in diversi compiti.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 6 leggere min
Un nuovo sistema migliora l'identificazione degli oratori durante le discussioni con più partecipanti.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 5 leggere min
Un nuovo framework migliora l'espressione emotiva nei sistemi TTS.
Kun Zhou, You Zhang, Shengkui Zhao
― 6 leggere min
Scoperte recenti rivelano che i sensori di pressione possono essere usati per intercettare.
Yonatan Gizachew Achamyeleh, Mohamad Habib Fakih, Gabriel Garcia
― 4 leggere min
Un nuovo algoritmo migliora il riconoscimento degli eventi sonori usando l'apprendimento auto-supervisionato.
Pengfei Cai, Yan Song, Nan Jiang
― 5 leggere min
La ricerca si concentra sul miglioramento dei metodi per rilevare il discorso falso realistico.
Davide Salvi, Viola Negroni, Luca Bondi
― 5 leggere min
Un nuovo metodo semplifica la creazione di audio e video per una sincronizzazione migliore.
Masato Ishii, Akio Hayakawa, Takashi Shibuya
― 6 leggere min
Controlla gli effetti audio usando descrizioni semplici per fare aggiustamenti più facili al suono.
Annie Chu, Patrick O'Reilly, Julia Barnett
― 6 leggere min
Presentiamo un nuovo modello e benchmark per valutare i compiti multi-audio.
Yiming Chen, Xianghu Yue, Xiaoxue Gao
― 6 leggere min
Un nuovo sistema modella l'intensità emotiva nei personaggi animati per un realismo migliore.
Jingyi Xu, Hieu Le, Zhixin Shu
― 6 leggere min
OpenSep automatizza la separazione audio per esperienze sonore più chiare senza bisogno di input manuali.
Tanvir Mahmud, Diana Marculescu
― 6 leggere min
PALM migliora il riconoscimento audio ottimizzando la rappresentazione dei prompt e l'efficienza.
Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi
― 5 leggere min
Esplora come le curve e il calibro dei fili influenzano il suono dei pickup delle chitarre.
Charles Batchelor, Jack Gooding, William Marriott
― 8 leggere min
Un nuovo metodo migliora il riconoscimento vocale per registrazioni lunghe.
Hao Yen, Shaoshi Ling, Guoli Ye
― 5 leggere min
Questo studio analizza come audio, video e testo lavorano insieme nel riconoscimento vocale.
Chen Chen, Xiaolou Li, Zehua Liu
― 7 leggere min
Un nuovo modello migliora la naturalezza nei sistemi di sintesi vocale analizzando i modelli di intonazione.
Tomilov A. A., Gromova A. Y., Svischev A. N
― 5 leggere min
Un nuovo modello migliora la rappresentazione del parlato per le lingue africane, aumentando l'inclusività nella tecnologia.
Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow
― 5 leggere min
Un nuovo modello migliora la creazione musicale usando melodie e descrizioni testuali.
Shaopeng Wei, Manzhen Wei, Haoyu Wang
― 5 leggere min
Nuovo metodo per i modelli di linguaggio parla riduce la necessità di dati estesi.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 6 leggere min
Scopri come funziona la conversione vocale e le sue applicazioni interessanti.
Arip Asadulaev, Rostislav Korst, Vitalii Shutov
― 4 leggere min
Scopri come CCI migliora le valutazioni della qualità multimediale.
Alessandro Ragano, Helard Becerra Martinez, Andrew Hines
― 6 leggere min
I ricercatori uniscono segnali audio e visivi per rilevare le bugie in modo più preciso.
Abdelrahman Abdelwahab, Akshaj Vishnubhatla, Ayaan Vaswani
― 6 leggere min
Una nuova rete basata sulla voce colma le lacune linguistiche nelle emergenze.
Majid Behravan, Elham Mohammadrezaei, Mohamed Azab
― 6 leggere min
Scopri come gli assistenti virtuali capiscono meglio i comandi degli utenti.
Ognjen, Rudovic, Pranay Dighe
― 6 leggere min
MACE migliora la didascalia audio collegando i suoni a descrizioni testuali accurate.
Satvik Dixit, Soham Deshmukh, Bhiksha Raj
― 5 leggere min
Usare il machine learning per prevedere la reazione del pubblico ai cover delle canzoni.
Aris J. Aristorenas
― 7 leggere min
Un nuovo modo per migliorare la classificazione attraverso la Distribuzione della Distanza Angolare.
Antonio Almudévar, Romain Serizel, Alfonso Ortega
― 6 leggere min