Un nouveau système prédit des scores de naturel pour la parole synthétique en utilisant des méthodes innovantes.
Kaito Baba, Wataru Nakata, Yuki Saito
― 7 min lire
La science de pointe expliquée simplement
Un nouveau système prédit des scores de naturel pour la parole synthétique en utilisant des méthodes innovantes.
Kaito Baba, Wataru Nakata, Yuki Saito
― 7 min lire
Une nouvelle méthode utilise l'audio pour améliorer la précision de la prononciation des machines.
Siqi Sun, Korin Richmond
― 7 min lire
De nouvelles méthodes améliorent la synchronisation audio avec les scènes vidéo qui changent.
Mingjing Yi, Ming Li
― 5 min lire
Explorer le défi GenSEC pour améliorer la précision de la transcription vocale.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 6 min lire
Une nouvelle méthode d'évaluation pour la schizophrénie utilisant des données multimodales.
Gowtham Premananth, Carol Espy-Wilson
― 7 min lire
De nouvelles méthodes aident les machines à mieux interpréter les sons individuels.
Sripathi Sridhar, Mark Cartwright
― 7 min lire
Un aperçu des technologies de détection de mots-clés et de leurs défis avec la langue ourdou.
Syed Muhammad Aqdas Rizvi
― 8 min lire
Des recherches montrent les galères avec la reconnaissance vocale des transmissions radio de la police.
Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff
― 9 min lire
PDMX propose une énorme collection de musique symbolique dans le domaine public pour le développement de l'IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 8 min lire
Une étude montre que les i-vectors peuvent rivaliser avec des modèles complexes dans la reconnaissance vocale.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 min lire
Une étude sur comment les choix de design impactent les modèles de fond de parole.
Li-Wei Chen, Takuya Higuchi, He Bai
― 9 min lire
Une nouvelle méthode évalue les modèles de parole auto-supervisés en utilisant une mesure de classement.
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 6 min lire
L'étude met en avant les progrès de la reconnaissance des émotions par les robots grâce aux Vision Transformers.
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 8 min lire
La recherche souligne l'importance d'un diagnostic juste dans les maladies respiratoires.
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 9 min lire
MusicLIME aide à comprendre comment l'IA analyse la musique à travers l'audio et les paroles.
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 7 min lire
Découvrez comment l'informatique quantique redéfinit la créativité musicale avec le Variational Quantum Harmonizer.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 15 min lire
Le modèle MCMamba améliore la qualité de la parole dans des environnements bruyants en utilisant des infos spatiales et spectraales.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 5 min lire
Cette étude évalue des méthodes à faible latence pour améliorer la qualité du son dans des conditions bruyantes.
Haibin Wu, Sebastian Braun
― 8 min lire
Examen de comment les gestes 2D et 3D influencent la communication des personnages virtuels.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 10 min lire
Une étude sur l'amélioration des systèmes de reconnaissance vocale dans des environnements bruyants.
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 7 min lire
Des chercheurs utilisent la parole pour identifier et surveiller différentes conditions de santé.
Catarina Botelho, Alberto Abad, Tanja Schultz
― 11 min lire
RF-GML mesure la qualité audio sans avoir besoin d'un signal de référence.
Arijit Biswas, Guanxin Jiang
― 6 min lire
Apprends comment l'égalisation de la pièce améliore les expériences audio dans différents environnements.
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 7 min lire
StyleTTS-ZS propose une synthèse vocale efficace et de haute qualité sans avoir besoin de former beaucoup les intervenants.
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 6 min lire
Une nouvelle méthode améliore le chant d'ensemble synthétisé en modélisant les interactions entre les chanteurs.
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale en modélisant efficacement les relations sonores.
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 6 min lire
Apprends comment le réglage des préférences aligne les modèles avec les retours des humains.
Genta Indra Winata, Hanyang Zhao, Anirban Das
― 6 min lire
Une nouvelle méthode de masquage améliore la conversion vocale en séparant l'identité du locuteur de la phonétique.
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 7 min lire
Des techniques innovantes améliorent l'entraînement des modèles musique-texte avec des ressources limitées.
Ilaria Manco, Justin Salamon, Oriol Nieto
― 9 min lire
De nouvelles méthodes améliorent le balisage audio pour des styles musicaux divers et la préservation culturelle.
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
― 8 min lire
Un ensemble de sons de maison favorise la sécurité et le confort des personnes âgées.
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh
― 6 min lire
Le SD-Codec améliore le traitement audio en séparant efficacement les différents types de sons.
Xiaoyu Bie, Xubo Liu, Gaël Richard
― 6 min lire
Cet article parle des méthodes pour améliorer la reconnaissance vocale pour les discours accentués.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 min lire
Une nouvelle méthode améliore l'interprétabilité de la détection de discours truqué.
Manasi Chhibber, Jagabandhu Mishra, Hyejin Shim
― 6 min lire
Un aperçu du nouveau système TTS à une seule étape qui améliore la génération de la parole.
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh
― 8 min lire
Cette étude aborde les défis des modèles audio pour les langues à faibles ressources.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 min lire
Cette étude améliore les systèmes de reconnaissance des émotions pour les langues moins courantes en utilisant des données à forte ressource.
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou
― 9 min lire
Un modèle améliore les tâches de parole dans des environnements multilingues, en s'attaquant aux défis du code-switching.
Jing Xu, Daxin Tan, Jiaqi Wang
― 7 min lire
Améliorer la synthèse vocale dans les langues indiennes en utilisant des unités inter-pausales.
Anusha Prakash, Hema A Murthy
― 8 min lire
DeFT-Mamba améliore la séparation et la classification des sons dans des environnements bruyants.
Dongheon Lee, Jung-Woo Choi
― 6 min lire