Un nouveau cadre améliore la détection des événements sonores qui se chevauchent dans des environnements audio complexes.
Han Yin, Jisheng Bai, Yang Xiao
― 8 min lire
La science de pointe expliquée simplement
Un nouveau cadre améliore la détection des événements sonores qui se chevauchent dans des environnements audio complexes.
Han Yin, Jisheng Bai, Yang Xiao
― 8 min lire
Recherche sur l'amélioration de l'identification des sons d'oiseaux grâce aux techniques d'apprentissage automatique.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 8 min lire
Une nouvelle méthode améliore la création automatique de covers de piano en utilisant la technologie de transcription musicale existante.
Kazuma Komiya, Yoshihisa Fukuhara
― 8 min lire
Un aperçu des résultats du défi Codec-SUPERB et des métriques de performance des codecs.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 6 min lire
Le projet MultiMed améliore la reconnaissance vocale automatique pour une meilleure communication dans le domaine de la santé.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 7 min lire
Une nouvelle approche pour évaluer la qualité audio sans avoir besoin de références propres.
Jozef Coldenhoff, Milos Cernak
― 8 min lire
Le cadre ECHO améliore la précision de la classification sonore en utilisant des étiquettes structurées et un processus d'apprentissage en deux étapes.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 6 min lire
Une nouvelle méthode améliore la clarté de la parole en intégrant des infos visuelles.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 6 min lire
Une nouvelle méthode améliore l'estimation de la direction du son pour les intervenants en mouvement dans des environnements difficiles.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 10 min lire
La récupération de moments audio permet de repérer des moments précis dans de longs enregistrements.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 6 min lire
Safe Guard détecte les discours haineux en temps réel pendant les interactions vocales en VR sociale.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 7 min lire
L'IA évolue pour avoir des conversations plus naturelles.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 min lire
Une nouvelle approche utilise l'IRM en temps réel pour visualiser les mouvements de production de la parole.
Hong Nguyen, Sean Foley, Kevin Huang
― 7 min lire
Une nouvelle méthode pour détecter les réflexions de salle précoces améliore les expériences audio.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 9 min lire
Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale et s'adapte à différents tâches de parole.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 min lire
De nouvelles méthodes sont nécessaires pour détecter les technologies de discours deepfake avancées.
Lam Pham, Phat Lam, Dat Tran
― 8 min lire
De nouvelles méthodes améliorent la précision pour identifier les sons des animaux à partir de données limitées.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 6 min lire
Une nouvelle méthode améliore l'intégration sonore virtuelle dans les environnements AR.
Francesc Lluís, Nils Meyer-Kahlen
― 8 min lire
Une nouvelle méthode vise à préserver la vie privée de la voix tout en permettant une communication efficace.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 min lire
De nouvelles méthodes améliorent la reconnaissance vocale pour les langues à faibles ressources sans texte.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 6 min lire
De nouvelles méthodes améliorent la précision des systèmes de reconnaissance vocale grâce à une compréhension phonétique.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 7 min lire
Ce cadre améliore les animations en temps réel en synchronisant la parole et les gestes sans problème.
Zixin Guo, Jian Zhang
― 6 min lire
De nouvelles caractéristiques acoustiques améliorent les performances des systèmes ASR dans des environnements bruyants.
Muhammad A. Shah, Bhiksha Raj
― 6 min lire
Une nouvelle fonction de perte améliore la qualité audio en alignant la phase et l'amplitude.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 7 min lire
Un nouveau modèle de TTS ajoute de la profondeur émotionnelle à la parole générée par ordinateur.
Yunji Chu, Yunseob Shim, Unsang Park
― 7 min lire
Évaluer des modèles de reconnaissance vocale pour des sessions de diagnostic de l'autisme.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 8 min lire
Des méthodes récentes améliorent la clarté et la qualité du son en utilisant des modèles avancés.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 8 min lire
Une nouvelle approche améliore la détection des faux enregistrements audio.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 6 min lire
ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 9 min lire
Explorer des méthodes pour adapter les RNN aux taux d'échantillonnage audio variables.
Alistair Carson, Alec Wright, Stefan Bilbao
― 7 min lire
Nouveau modèle permet une transcription vocale plus rapide sans sacrifier la précision.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 min lire
Découvrez comment les embeddings Matryoshka améliorent l'efficacité et la flexibilité de la reconnaissance vocale.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 min lire
Présentation de NanoVoice, un modèle de synthèse vocale rapide et efficace pour un audio personnalisé.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 7 min lire
Le nouveau modèle VoiceGuider améliore la TTS pour les voix variées.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min lire
Une nouvelle méthode pour traduire des voix à travers les langues tout en gardant leurs caractéristiques uniques.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 7 min lire
De nouvelles techniques améliorent la qualité de la parole expressive chez différents locuteurs.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 7 min lire
Cet article explore le rôle des métriques perceptuelles dans la classification des genres musicaux.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 6 min lire
Une nouvelle méthode améliore le traitement de la parole et de l'audio dans plusieurs tâches.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 7 min lire
Un nouveau système améliore l'identification des intervenants lors de discussions avec plusieurs participants.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 6 min lire