aTENNuate offre un miglioramento efficiente in tempo reale dei segnali vocali, migliorando la chiarezza della comunicazione.
Yan Ru Pei, Ritik Shrivastava, FNU Sidharth
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
aTENNuate offre un miglioramento efficiente in tempo reale dei segnali vocali, migliorando la chiarezza della comunicazione.
Yan Ru Pei, Ritik Shrivastava, FNU Sidharth
― 5 leggere min
Articoli più recenti
Junpei Honma, Akisato Kimura, Go Irie
― 6 leggere min
Jixun Yao, Nikita Kuzmin, Qing Wang
― 6 leggere min
Mattes Ohlenbusch, Christian Rollwage, Simon Doclo
― 5 leggere min
Ju-Chiang Wang, Wei-Tsung Lu, Jitong Chen
― 5 leggere min
Tzu-Quan Lin, Guan-Ting Lin, Hung-yi Lee
― 7 leggere min
Un nuovo modello semplifica la produzione audio eliminando automaticamente i suoni di respiro.
Nidula Elgiriyewithana, N. D. Kodikara
― 6 leggere min
I modelli di linguaggio per il parlato sembrano promettenti, ma faticano a identificare i relatori nelle conversazioni.
Junkai Wu, Xulin Fan, Bo-Ru Lu
― 5 leggere min
Un approccio di apprendimento auto-supervisionato riduce la necessità di dati audio etichettati.
Chunxi Wang, Maoshen Jia, Meiran Li
― 6 leggere min
Uno studio rivela il ruolo dei dati vocali nel riconoscere le emozioni nei parlanti spagnoli.
Elena Ortega-Beltrán, Josep Cabacas-Maso, Ismael Benito-Altamirano
― 6 leggere min
Un nuovo metodo migliora la chiarezza vocale in ambienti rumorosi.
Siyi Wang, Siyi Liu, Andrew Harper
― 5 leggere min
Approcci innovativi mirano a migliorare la qualità musicale per chi ha problemi di udito.
Gerardo Roa Dabike, Michael A. Akeroyd, Scott Bannister
― 6 leggere min
GenRep offre un approccio innovativo per identificare suoni insoliti delle macchine con dati limitati.
Phurich Saengthong, Takahiro Shinozaki
― 5 leggere min
TF-Mamba migliora la localizzazione del suono usando un nuovo metodo che integra dati temporali e di frequenza.
Yang Xiao, Rohan Kumar Das
― 5 leggere min
La ricerca sui sistemi ASR modulari punta a migliorare le performance in ambienti rumorosi.
Louise Coppieters de Gibson, Philip N. Garner, Pierre-Edouard Honnet
― 4 leggere min
Un nuovo metodo combina significato e suono per migliorare il riconoscimento delle emozioni nel parlato.
Soumya Dutta, Sriram Ganapathy
― 7 leggere min
Questo articolo parla di metodi di allenamento efficienti per modelli di voce usando l'apprendimento autosupervisionato.
Andy T. Liu, Yi-Cheng Lin, Haibin Wu
― 4 leggere min
Una nuova architettura migliora il rilevamento del suono in diversi ambienti.
Zehao Wang, Haobo Yue, Zhicheng Zhang
― 5 leggere min
Un nuovo modello migliora la generazione musicale concentrandosi su strumenti singoli.
Zhongweiyang Xu, Debottam Dutta, Yu-Lin Wei
― 5 leggere min
Presentiamo DENSE, un metodo che migliora l'estrazione del discorso target usando embedding dinamici.
Yiwen Wang, Zeyu Yuan, Xihong Wu
― 6 leggere min
Un nuovo metodo migliora la trasformazione audio mantenendo melodia e qualità del suono.
Michele Mancusi, Yurii Halychanskyi, Kin Wai Cheuk
― 6 leggere min
Questo metodo migliora l'accuratezza del riconoscimento per i nomi rari nei risultati vocali.
Ernest Pusateri, Anmol Walia, Anirudh Kashi
― 6 leggere min
Migliorare l'identificazione delle parole parlate tramite indizi visivi in lingue poco supportate.
Leanne Nortje, Dan Oneata, Herman Kamper
― 7 leggere min
Un nuovo modello migliora il rilevamento degli audio deepfake con apprendimento continuo.
Tuan Duy Nguyen Le, Kah Kuan Teh, Huy Dat Tran
― 6 leggere min
Una panoramica dei metodi, delle sfide e dei sistemi di diarizzazione audio-visiva dei relatori.
Victoria Mingote, Alfonso Ortega, Antonio Miguel
― 5 leggere min
BigCodec migliora la qualità del suono nella trasmissione audio a bassa bitrate.
Detai Xin, Xu Tan, Shinnosuke Takamichi
― 5 leggere min
Nuovo metodo migliora la cattura del suono usando microfoni circolari per una qualità audio migliore.
Yue Qiao, Vinay Kothapally, Meng Yu
― 5 leggere min
Questo articolo parla dei vantaggi di semplificare i modelli transformer per i compiti di riconoscimento vocale.
Teresa Dorszewski, Albert Kjøller Jacobsen, Lenka Tětková
― 5 leggere min
Sortformer integra la diarizzazione degli speaker e l'ASR per migliorare l'elaborazione audio.
Taejin Park, Ivan Medennikov, Kunal Dhawan
― 5 leggere min
Un modo nuovo per creare suoni di pianoforte realistici usando la separazione dei componenti sonori.
Riccardo Simionato, Stefano Fasciani
― 8 leggere min
ParaEVITS migliora l'espressione emotiva nel TTS attraverso la guida del linguaggio naturale.
Xin Jing, Kun Zhou, Andreas Triantafyllopoulos
― 5 leggere min
Scopri come l'audio inpainting ripara le parti mancanti dei segnali.
Ondřej Mokrý, Peter Balušík, Pavel Rajmic
― 5 leggere min
Nuovi metodi migliorano la comprensione del linguaggio parlato grazie a un dataset innovativo.
Lennart Keller, Goran Glavaš
― 5 leggere min
Nuovi metodi migliorano la conversazione uomo-robot rendendo il parlato più chiaro.
Yue Li, Koen V. Hindriks, Florian A. Kunneman
― 5 leggere min
Nuovi metodi migliorano l'accesso alle notizie parlate segmentando meglio gli argomenti.
Sakshi Deo Shukla, Pavel Denisov, Tugtekin Turan
― 7 leggere min
Questa ricerca analizza le performance di Mamba nei compiti di parola, mettendo in evidenza la ricostruzione e il riconoscimento dei suoni.
Xiangyu Zhang, Jianbo Ma, Mostafa Shahin
― 6 leggere min
Un nuovo metodo per il tagging musicale usando il few-shot learning mostra risultati promettenti.
T. Aleksandra Ma, Alexander Lerch
― 7 leggere min
FlowSep introduce un metodo nuovo per estrarre suoni usando query linguistiche.
Yi Yuan, Xubo Liu, Haohe Liu
― 5 leggere min
SSR-Speech offre nuove soluzioni per la generazione e la modifica del parlato.
Helin Wang, Meng Yu, Jiarui Hai
― 5 leggere min
I progressi nell'IA rendono comuni gli audio falsi, spingendo a cercare modi per rilevarli.
Hong-Hanh Nguyen-Le, Van-Tuan Tran, Dinh-Thuc Nguyen
― 6 leggere min
Il nuovo modello migliora la generazione del parlato in diversi dialetti delle lingue a accento tonale.
Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
― 5 leggere min
Un nuovo metodo migliora l'accuratezza della localizzazione sonora garantendo la privacy dei dati.
Xinyuan Qian, Xianghu Yue, Jiadong Wang
― 4 leggere min
Un nuovo metodo per creare musica pop strutturata usando tecniche basate su grafi.
Wen Qing Lim, Jinhua Liang, Huan Zhang
― 6 leggere min
Un nuovo metodo per migliorare il riconoscimento delle parole chiave mantenendo la conoscenza appresa.
Tianyi Peng, Yang Xiao
― 6 leggere min
I ricercatori sviluppano un dataset per migliorare le tecniche di riconoscimento e analisi vocale.
Xiangyu Zhang, Daijiao Liu, Tianyi Xiao
― 6 leggere min
SoloAudio migliora l'estrazione del suono usando tecniche avanzate e dati sintetici.
Helin Wang, Jiarui Hai, Yen-Ju Lu
― 5 leggere min