De nouvelles méthodes améliorent l'isolation sonore des environnements bruyants sans données étiquetées.
Hao Ma, Zhiyuan Peng, Xu Li
― 7 min lire
La science de pointe expliquée simplement
De nouvelles méthodes améliorent l'isolation sonore des environnements bruyants sans données étiquetées.
Hao Ma, Zhiyuan Peng, Xu Li
― 7 min lire
Une nouvelle approche s'attaque à la variation de canal dans les systèmes de reconnaissance vocale.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 7 min lire
Une nouvelle méthode améliore la reconnaissance vocale des machines pour la vérification des locuteurs.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 7 min lire
Un nouveau modèle améliore la génération audio en utilisant des textes et des sons de référence détaillés.
Chenxu Xiong, Ruibo Fu, Shuchen Shi
― 8 min lire
L'intelligence artificielle est en train de transformer la musique avec de nouveaux outils et des approches.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 8 min lire
MaskSR2 améliore la clarté et la qualité de la voix grâce à des techniques innovantes.
Xiaoyu Liu, Xu Li, Joan Serrà
― 6 min lire
Une nouvelle méthode pour générer de la parole accentuée en utilisant la translittération du texte.
Sho Inoue, Shuai Wang, Wanxing Wang
― 8 min lire
E1 TTS transforme le texte en parole naturelle plus rapidement et plus efficacement.
Zhijun Liu, Shuai Wang, Pengcheng Zhu
― 6 min lire
Wave-U-Mamba améliore les enregistrements vocaux de mauvaise qualité pour une communication plus claire.
Yongjoon Lee, Chanwoo Kim
― 6 min lire
Un nouveau système prédit des scores de naturel pour la parole synthétique en utilisant des méthodes innovantes.
Kaito Baba, Wataru Nakata, Yuki Saito
― 7 min lire
Une nouvelle méthode utilise l'audio pour améliorer la précision de la prononciation des machines.
Siqi Sun, Korin Richmond
― 7 min lire
De nouvelles méthodes améliorent la synchronisation audio avec les scènes vidéo qui changent.
Mingjing Yi, Ming Li
― 5 min lire
Explorer le défi GenSEC pour améliorer la précision de la transcription vocale.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 6 min lire
Une nouvelle méthode d'évaluation pour la schizophrénie utilisant des données multimodales.
Gowtham Premananth, Carol Espy-Wilson
― 7 min lire
De nouvelles méthodes aident les machines à mieux interpréter les sons individuels.
Sripathi Sridhar, Mark Cartwright
― 7 min lire
Un aperçu des technologies de détection de mots-clés et de leurs défis avec la langue ourdou.
Syed Muhammad Aqdas Rizvi
― 8 min lire
Des recherches montrent les galères avec la reconnaissance vocale des transmissions radio de la police.
Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff
― 9 min lire
PDMX propose une énorme collection de musique symbolique dans le domaine public pour le développement de l'IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 8 min lire
Une étude montre que les i-vectors peuvent rivaliser avec des modèles complexes dans la reconnaissance vocale.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 min lire
Une étude sur comment les choix de design impactent les modèles de fond de parole.
Li-Wei Chen, Takuya Higuchi, He Bai
― 9 min lire
Une nouvelle méthode évalue les modèles de parole auto-supervisés en utilisant une mesure de classement.
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 6 min lire
L'étude met en avant les progrès de la reconnaissance des émotions par les robots grâce aux Vision Transformers.
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 8 min lire
La recherche souligne l'importance d'un diagnostic juste dans les maladies respiratoires.
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 9 min lire
MusicLIME aide à comprendre comment l'IA analyse la musique à travers l'audio et les paroles.
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 7 min lire
Découvrez comment l'informatique quantique redéfinit la créativité musicale avec le Variational Quantum Harmonizer.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 15 min lire
Le modèle MCMamba améliore la qualité de la parole dans des environnements bruyants en utilisant des infos spatiales et spectraales.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 5 min lire
Cette étude évalue des méthodes à faible latence pour améliorer la qualité du son dans des conditions bruyantes.
Haibin Wu, Sebastian Braun
― 8 min lire
Examen de comment les gestes 2D et 3D influencent la communication des personnages virtuels.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 10 min lire
Une étude sur l'amélioration des systèmes de reconnaissance vocale dans des environnements bruyants.
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 7 min lire
Des chercheurs utilisent la parole pour identifier et surveiller différentes conditions de santé.
Catarina Botelho, Alberto Abad, Tanja Schultz
― 11 min lire
RF-GML mesure la qualité audio sans avoir besoin d'un signal de référence.
Arijit Biswas, Guanxin Jiang
― 6 min lire
Apprends comment l'égalisation de la pièce améliore les expériences audio dans différents environnements.
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 7 min lire
StyleTTS-ZS propose une synthèse vocale efficace et de haute qualité sans avoir besoin de former beaucoup les intervenants.
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 6 min lire
Une nouvelle méthode améliore le chant d'ensemble synthétisé en modélisant les interactions entre les chanteurs.
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 6 min lire
Un nouveau cadre améliore la reconnaissance vocale en modélisant efficacement les relations sonores.
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 6 min lire
Apprends comment le réglage des préférences aligne les modèles avec les retours des humains.
Genta Indra Winata, Hanyang Zhao, Anirban Das
― 6 min lire
Une nouvelle méthode de masquage améliore la conversion vocale en séparant l'identité du locuteur de la phonétique.
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 7 min lire
Des techniques innovantes améliorent l'entraînement des modèles musique-texte avec des ressources limitées.
Ilaria Manco, Justin Salamon, Oriol Nieto
― 9 min lire
De nouvelles méthodes améliorent le balisage audio pour des styles musicaux divers et la préservation culturelle.
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
― 8 min lire
Un ensemble de sons de maison favorise la sécurité et le confort des personnes âgées.
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh
― 6 min lire