Une étude montre que les i-vectors peuvent rivaliser avec des modèles complexes dans la reconnaissance vocale.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 min lire
La science de pointe expliquée simplement
Une étude montre que les i-vectors peuvent rivaliser avec des modèles complexes dans la reconnaissance vocale.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 min lire
Derniers articles
Li-Wei Chen, Takuya Higuchi, He Bai
― 9 min lire
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 6 min lire
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 8 min lire
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 9 min lire
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 7 min lire
Découvrez comment l'informatique quantique redéfinit la créativité musicale avec le Variational Quantum Harmonizer.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 15 min lire
Le modèle MCMamba améliore la qualité de la parole dans des environnements bruyants en utilisant des infos spatiales et spectraales.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 5 min lire
Cette étude évalue des méthodes à faible latence pour améliorer la qualité du son dans des conditions bruyantes.
Haibin Wu, Sebastian Braun
― 8 min lire
Examen de comment les gestes 2D et 3D influencent la communication des personnages virtuels.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 10 min lire
Une étude sur l'amélioration des systèmes de reconnaissance vocale dans des environnements bruyants.
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 7 min lire
Des chercheurs utilisent la parole pour identifier et surveiller différentes conditions de santé.
Catarina Botelho, Alberto Abad, Tanja Schultz
― 11 min lire
RF-GML mesure la qualité audio sans avoir besoin d'un signal de référence.
Arijit Biswas, Guanxin Jiang
― 6 min lire
Apprends comment l'égalisation de la pièce améliore les expériences audio dans différents environnements.
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 7 min lire
StyleTTS-ZS propose une synthèse vocale efficace et de haute qualité sans avoir besoin de former beaucoup les intervenants.
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 6 min lire
Une nouvelle méthode améliore le chant d'ensemble synthétisé en modélisant les interactions entre les chanteurs.
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale en modélisant efficacement les relations sonores.
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 6 min lire
Apprends comment le réglage des préférences aligne les modèles avec les retours des humains.
Genta Indra Winata, Hanyang Zhao, Anirban Das
― 6 min lire
Une nouvelle méthode de masquage améliore la conversion vocale en séparant l'identité du locuteur de la phonétique.
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 7 min lire
Des techniques innovantes améliorent l'entraînement des modèles musique-texte avec des ressources limitées.
Ilaria Manco, Justin Salamon, Oriol Nieto
― 9 min lire
De nouvelles méthodes améliorent le balisage audio pour des styles musicaux divers et la préservation culturelle.
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
― 8 min lire
Un ensemble de sons de maison favorise la sécurité et le confort des personnes âgées.
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh
― 6 min lire
Le SD-Codec améliore le traitement audio en séparant efficacement les différents types de sons.
Xiaoyu Bie, Xubo Liu, Gaël Richard
― 6 min lire
Cet article parle des méthodes pour améliorer la reconnaissance vocale pour les discours accentués.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 min lire
Une nouvelle méthode améliore l'interprétabilité de la détection de discours truqué.
Manasi Chhibber, Jagabandhu Mishra, Hyejin Shim
― 6 min lire
Un aperçu du nouveau système TTS à une seule étape qui améliore la génération de la parole.
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh
― 8 min lire
Cette étude aborde les défis des modèles audio pour les langues à faibles ressources.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 min lire
Cette étude améliore les systèmes de reconnaissance des émotions pour les langues moins courantes en utilisant des données à forte ressource.
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou
― 9 min lire
Un modèle améliore les tâches de parole dans des environnements multilingues, en s'attaquant aux défis du code-switching.
Jing Xu, Daxin Tan, Jiaqi Wang
― 7 min lire
Améliorer la synthèse vocale dans les langues indiennes en utilisant des unités inter-pausales.
Anusha Prakash, Hema A Murthy
― 8 min lire
DeFT-Mamba améliore la séparation et la classification des sons dans des environnements bruyants.
Dongheon Lee, Jung-Woo Choi
― 6 min lire
CADA-GAN améliore la performance des systèmes ASR dans différents environnements d'enregistrement.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 7 min lire
EVA combine des signaux audio et visuels pour une meilleure précision de reconnaissance vocale.
Yihan Wu, Yifan Peng, Yichen Lu
― 5 min lire
Un nouveau cadre simplifie la reconnaissance vocale dans des environnements bruyants.
Jinhan Wang, Weiqing Wang, Kunal Dhawan
― 6 min lire
Llama-AVSR combine l'audio et les visuels pour améliorer la précision de la reconnaissance vocale.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 8 min lire
WMCodec améliore le marquage audio pour plus de sécurité et d'authenticité.
Junzuo Zhou, Jiangyan Yi, Yong Ren
― 6 min lire
De nouveaux modèles s'attaquent à la classification sonore avec peu de données d'entraînement.
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai
― 7 min lire
Une nouvelle méthode améliore la détection des faux audios en utilisant des modèles préentraînés.
Zhiyong Wang, Ruibo Fu, Zhengqi Wen
― 7 min lire
Une nouvelle méthode améliore la qualité et l'efficacité de la génération de discours.
Xin Qi, Ruibo Fu, Zhengqi Wen
― 6 min lire
Une méthode qui combine des données étiquetées et non étiquetées améliore la détection des sources sonores.
Vadim Rozenfeld, Bracha Laufer Goldshtein
― 7 min lire
Découvrez comment les sons aident les joueurs de ping-pong.
Thomas Gossard, Julian Schmalzl, Andreas Ziegler
― 7 min lire
Un système qui met la mélodie en avant tout en permettant de contrôler la génération de musique orchestrale.
Dinh-Viet-Toan Le, Yi-Hsuan Yang
― 7 min lire
Une nouvelle méthode utilise l'ombre virtuelle pour améliorer le retour sur la prononciation des apprenants en langues.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 7 min lire
De nouvelles méthodes améliorent la qualité audio binaurale dans des environnements sonores difficiles.
Ami Berger, Vladimir Tourbabin, Jacob Donley
― 10 min lire
Une nouvelle méthode ASR aide la technologie à mieux comprendre la parole des enfants.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 7 min lire
Le compositeur utilise des invites textuelles pour créer des compositions musicales complexes en format MIDI.
Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara
― 7 min lire