Esplorando metodi per adattare le RNN a diversi tassi di campionamento audio.
Alistair Carson, Alec Wright, Stefan Bilbao
― 6 leggere min
Scienza all'avanguardia spiegata semplicemente
Esplorando metodi per adattare le RNN a diversi tassi di campionamento audio.
Alistair Carson, Alec Wright, Stefan Bilbao
― 6 leggere min
Nuovo modello raggiunge trascrizione vocale più veloce senza sacrificare l'accuratezza.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 4 leggere min
Scopri come gli embedding Matryoshka migliorano l'efficienza e la flessibilità nel riconoscimento vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 5 leggere min
Ti presento NanoVoice, un modello di sintesi vocale veloce ed efficiente per audio personalizzato.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 5 leggere min
Il nuovo modello VoiceGuider migliora il TTS per relatori diversi.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 6 leggere min
Un metodo innovativo per convertire voci tra lingue mantenendo caratteristiche uniche.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 leggere min
Nuove tecniche migliorano la qualità della voce espressiva tra diversi oratori.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 leggere min
Questo articolo esplora il ruolo delle metriche percettive nella classificazione dei generi musicali.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 5 leggere min
Un nuovo metodo migliora l'elaborazione del parlato e dell'audio in diversi compiti.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 6 leggere min
Un nuovo sistema migliora l'identificazione degli oratori durante le discussioni con più partecipanti.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 5 leggere min
Un nuovo framework migliora l'espressione emotiva nei sistemi TTS.
Kun Zhou, You Zhang, Shengkui Zhao
― 6 leggere min
Scoperte recenti rivelano che i sensori di pressione possono essere usati per intercettare.
Yonatan Gizachew Achamyeleh, Mohamad Habib Fakih, Gabriel Garcia
― 4 leggere min
Un nuovo algoritmo migliora il riconoscimento degli eventi sonori usando l'apprendimento auto-supervisionato.
Pengfei Cai, Yan Song, Nan Jiang
― 5 leggere min
La ricerca si concentra sul miglioramento dei metodi per rilevare il discorso falso realistico.
Davide Salvi, Viola Negroni, Luca Bondi
― 5 leggere min
Un nuovo metodo semplifica la creazione di audio e video per una sincronizzazione migliore.
Masato Ishii, Akio Hayakawa, Takashi Shibuya
― 6 leggere min
Controlla gli effetti audio usando descrizioni semplici per fare aggiustamenti più facili al suono.
Annie Chu, Patrick O'Reilly, Julia Barnett
― 6 leggere min
Presentiamo un nuovo modello e benchmark per valutare i compiti multi-audio.
Yiming Chen, Xianghu Yue, Xiaoxue Gao
― 6 leggere min
Un nuovo sistema modella l'intensità emotiva nei personaggi animati per un realismo migliore.
Jingyi Xu, Hieu Le, Zhixin Shu
― 6 leggere min
OpenSep automatizza la separazione audio per esperienze sonore più chiare senza bisogno di input manuali.
Tanvir Mahmud, Diana Marculescu
― 6 leggere min
PALM migliora il riconoscimento audio ottimizzando la rappresentazione dei prompt e l'efficienza.
Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi
― 5 leggere min
Esplora come le curve e il calibro dei fili influenzano il suono dei pickup delle chitarre.
Charles Batchelor, Jack Gooding, William Marriott
― 8 leggere min
Un nuovo metodo migliora il riconoscimento vocale per registrazioni lunghe.
Hao Yen, Shaoshi Ling, Guoli Ye
― 5 leggere min
Questo studio analizza come audio, video e testo lavorano insieme nel riconoscimento vocale.
Chen Chen, Xiaolou Li, Zehua Liu
― 7 leggere min
Un nuovo modello migliora la naturalezza nei sistemi di sintesi vocale analizzando i modelli di intonazione.
Tomilov A. A., Gromova A. Y., Svischev A. N
― 5 leggere min
Un nuovo modello migliora la rappresentazione del parlato per le lingue africane, aumentando l'inclusività nella tecnologia.
Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow
― 5 leggere min
Un nuovo modello migliora la creazione musicale usando melodie e descrizioni testuali.
Shaopeng Wei, Manzhen Wei, Haoyu Wang
― 5 leggere min
Nuovo metodo per i modelli di linguaggio parla riduce la necessità di dati estesi.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 6 leggere min
Scopri come funziona la conversione vocale e le sue applicazioni interessanti.
Arip Asadulaev, Rostislav Korst, Vitalii Shutov
― 4 leggere min
Scopri come CCI migliora le valutazioni della qualità multimediale.
Alessandro Ragano, Helard Becerra Martinez, Andrew Hines
― 6 leggere min
I ricercatori uniscono segnali audio e visivi per rilevare le bugie in modo più preciso.
Abdelrahman Abdelwahab, Akshaj Vishnubhatla, Ayaan Vaswani
― 6 leggere min
Una nuova rete basata sulla voce colma le lacune linguistiche nelle emergenze.
Majid Behravan, Elham Mohammadrezaei, Mohamed Azab
― 6 leggere min
Scopri come gli assistenti virtuali capiscono meglio i comandi degli utenti.
Ognjen, Rudovic, Pranay Dighe
― 6 leggere min
MACE migliora la didascalia audio collegando i suoni a descrizioni testuali accurate.
Satvik Dixit, Soham Deshmukh, Bhiksha Raj
― 5 leggere min
Usare il machine learning per prevedere la reazione del pubblico ai cover delle canzoni.
Aris J. Aristorenas
― 7 leggere min
Un nuovo modo per migliorare la classificazione attraverso la Distribuzione della Distanza Angolare.
Antonio Almudévar, Romain Serizel, Alfonso Ortega
― 6 leggere min
Nuovi metodi migliorano gli strumenti di comunicazione per le persone con difficoltà nel parlare.
Macarious Hui, Jinda Zhang, Aanchan Mohan
― 7 leggere min
Nuovi metodi che usano modelli di linguaggio migliorano il riconoscimento dei suoni in mezzo al rumore di fondo.
Han Yin, Yang Xiao, Jisheng Bai
― 6 leggere min
Fish-Speech migliora la tecnologia vocale per un'esperienza di comunicazione più naturale.
Shijia Liao, Yuxuan Wang, Tianyu Li
― 6 leggere min
EmoSphere++ permette alle macchine di esprimere emozioni come gli esseri umani, migliorando le interazioni.
Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim
― 7 leggere min
U-COTANS migliora il rilevamento dei confini subacquei usando tecniche di deep learning.
Toros Arikan, Luca M. Chackalackal, Fatima Ahsan
― 6 leggere min