Questo articolo parla dei vantaggi di semplificare i modelli transformer per i compiti di riconoscimento vocale.
Teresa Dorszewski, Albert Kjøller Jacobsen, Lenka Tětková
― 5 leggere min
Scienza all'avanguardia spiegata semplicemente
Questo articolo parla dei vantaggi di semplificare i modelli transformer per i compiti di riconoscimento vocale.
Teresa Dorszewski, Albert Kjøller Jacobsen, Lenka Tětková
― 5 leggere min
Articoli più recenti
Taejin Park, Ivan Medennikov, Kunal Dhawan
― 5 leggere min
Riccardo Simionato, Stefano Fasciani
― 8 leggere min
Xin Jing, Kun Zhou, Andreas Triantafyllopoulos
― 5 leggere min
Ondřej Mokrý, Peter Balušík, Pavel Rajmic
― 5 leggere min
Lennart Keller, Goran Glavaš
― 5 leggere min
Nuovi metodi migliorano la conversazione uomo-robot rendendo il parlato più chiaro.
Yue Li, Koen V. Hindriks, Florian A. Kunneman
― 5 leggere min
Nuovi metodi migliorano l'accesso alle notizie parlate segmentando meglio gli argomenti.
Sakshi Deo Shukla, Pavel Denisov, Tugtekin Turan
― 7 leggere min
Questa ricerca analizza le performance di Mamba nei compiti di parola, mettendo in evidenza la ricostruzione e il riconoscimento dei suoni.
Xiangyu Zhang, Jianbo Ma, Mostafa Shahin
― 6 leggere min
Un nuovo metodo per il tagging musicale usando il few-shot learning mostra risultati promettenti.
T. Aleksandra Ma, Alexander Lerch
― 7 leggere min
FlowSep introduce un metodo nuovo per estrarre suoni usando query linguistiche.
Yi Yuan, Xubo Liu, Haohe Liu
― 5 leggere min
SSR-Speech offre nuove soluzioni per la generazione e la modifica del parlato.
Helin Wang, Meng Yu, Jiarui Hai
― 5 leggere min
I progressi nell'IA rendono comuni gli audio falsi, spingendo a cercare modi per rilevarli.
Hong-Hanh Nguyen-Le, Van-Tuan Tran, Dinh-Thuc Nguyen
― 6 leggere min
Il nuovo modello migliora la generazione del parlato in diversi dialetti delle lingue a accento tonale.
Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
― 5 leggere min
Un nuovo metodo migliora l'accuratezza della localizzazione sonora garantendo la privacy dei dati.
Xinyuan Qian, Xianghu Yue, Jiadong Wang
― 4 leggere min
Un nuovo metodo per creare musica pop strutturata usando tecniche basate su grafi.
Wen Qing Lim, Jinhua Liang, Huan Zhang
― 6 leggere min
Un nuovo metodo per migliorare il riconoscimento delle parole chiave mantenendo la conoscenza appresa.
Tianyi Peng, Yang Xiao
― 6 leggere min
I ricercatori sviluppano un dataset per migliorare le tecniche di riconoscimento e analisi vocale.
Xiangyu Zhang, Daijiao Liu, Tianyi Xiao
― 6 leggere min
SoloAudio migliora l'estrazione del suono usando tecniche avanzate e dati sintetici.
Helin Wang, Jiarui Hai, Yen-Ju Lu
― 5 leggere min
OpenACE offre un buon punto di riferimento per valutare i codec audio in diverse condizioni.
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak
― 6 leggere min
Un metodo per identificare guasti nei motori elettrici tramite analisi del suono e reti neurali bayesiane.
Waldemar Bauer, Marta Zagorowska, Jerzy Baranowski
― 5 leggere min
I modelli di riconoscimento vocale si stanno evolvendo con la previsione multi-token per risposte più veloci.
Desh Raj, Gil Keren, Junteng Jia
― 5 leggere min
Sforzi per migliorare la tecnologia vocale per la lingua Faetar, che è poco supportata.
Michael Ong, Sean Robertson, Leo Peckham
― 6 leggere min
Un nuovo metodo zero-shot migliora l'accuratezza della conversione vocale e riduce al minimo le perdite sonore.
Wangjin Zhou, Fengrun Zhang, Yiming Liu
― 6 leggere min
Uno studio rivela come i toni cambiano nel parlato quotidiano del mandarino taiwanese.
Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen
― 5 leggere min
Nuovo metodo migliora la rilevazione del Parkinson tramite l'analisi del parlato con tecnologia avanzata.
Shakeel A. Sheikh, Yacouba Kaloga, Md Sahidullah
― 5 leggere min
Un nuovo approccio migliora l'isolamento vocale in ambienti audio misti usando token discreti.
Beilong Tang, Bang Zeng, Ming Li
― 5 leggere min
La ricerca collega i dipinti alla musica interpretando le emozioni.
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 6 leggere min
Uno studio sull'uso dei modelli linguistici per correggere errori nei sistemi di riconoscimento vocale.
Zhiyuan Tang, Dong Wang, Shen Huang
― 6 leggere min
FLAMO semplifica l'elaborazione audio tramite tecniche differenziabili e campionamento delle frequenze.
Gloria Dal Santo, Gian Marco De Bortoli, Karolina Prawda
― 6 leggere min
Un nuovo metodo migliora la rilevazione automatica dei problemi di linguaggio legati al morbo di Parkinson.
Yacouba Kaloga, Shakeel A. Sheikh, Ina Kodrasi
― 5 leggere min
Un nuovo approccio migliora i sistemi ASR per una comunicazione in aula migliore.
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi
― 5 leggere min
Questo articolo esplora come input diversi possono aumentare l'accuratezza del riconoscimento vocale.
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 5 leggere min
Un sistema che rende la creazione musicale facile e accessibile a tutti, indipendentemente dal livello di abilità.
Ye Bai, Haonan Chen, Jitong Chen
― 7 leggere min
ReCLAP migliora la classificazione audio con suggerimenti dettagliati per una maggiore precisione.
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru
― 5 leggere min
Un progetto mira a migliorare la tecnologia vocale per chi ha difficoltà di comunicazione.
Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek
― 6 leggere min
MambaFoley rivoluziona la sintesi del suono Foley con un tempo e un realismo migliorati.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 6 leggere min
Un nuovo sistema migliora l'accuratezza degli accenti nel TTS per una comunicazione migliore.
Jinzuomu Zhong, Korin Richmond, Zhiba Su
― 6 leggere min
Usare le embedding CLAP migliora davvero tanto i sistemi di raccomandazione musicale.
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer
― 7 leggere min
Uno studio esplora lo sviluppo dell'ASR per Amis e Seediq, concentrandosi sull'uso dei dati.
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee
― 7 leggere min
LLaQo offre un feedback dettagliato per la valutazione delle performance musicali, migliorando l'apprendimento degli studenti.
Huan Zhang, Vincent Cheung, Hayato Nishioka
― 5 leggere min
I ricercatori sviluppano nuove strategie per distinguere gli animali individuali usando i loro suoni unici.
Ines Nolasco, Ilyass Moummad, Dan Stowell
― 6 leggere min
Un nuovo metodo semplifica il rilevamento delle sirene per una maggiore sicurezza dei veicoli.
Stefano Damiano, Thomas Dietzen, Toon van Waterschoot
― 6 leggere min
Un nuovo approccio combina il riconoscimento degli eventi sonori e la diarizzazione degli altoparlanti per una migliore comprensione dell'audio.
Yidi Jiang, Ruijie Tao, Wen Huang
― 5 leggere min
Un nuovo approccio migliora l'ASR concentrandosi su dettagli specifici del parlante.
Alexander Polok, Dominik Klement, Matthew Wiesner
― 5 leggere min
Uno studio che svela come i modelli di deep learning riconoscono le emozioni nel parlato.
Satvik Dixit, Daniel M. Low, Gasser Elbanna
― 5 leggere min