Des chercheurs améliorent le traitement de la parole en utilisant Libri2Vox et des techniques de données synthétiques.
Yun Liu, Xuechen Liu, Xiaoxiao Miao
― 7 min lire
La science de pointe expliquée simplement
Des chercheurs améliorent le traitement de la parole en utilisant Libri2Vox et des techniques de données synthétiques.
Yun Liu, Xuechen Liu, Xiaoxiao Miao
― 7 min lire
Découvre comment le TTS émotionnel change la communication avec les machines, les rendant plus proches.
Sho Inoue, Kun Zhou, Shuai Wang
― 7 min lire
Apprends comment les sons des insectes peuvent aider à surveiller les écosystèmes et gérer les nuisibles.
Yinxuan Wang, Sudip Vhaduri
― 8 min lire
De nouvelles méthodes aident les machines à trouver des infos clés à partir de contenus parlés.
Yueqian Lin, Yuzhe Fu, Jingyang Zhang
― 6 min lire
Découvrez comment l'IA simplifie la collecte de données de discours grâce à l'crowdsourcing.
Beomseok Lee, Marco Gaido, Ioan Calapodescu
― 6 min lire
Explore les différences entre la parole spontanée et la parole scriptée dans le traitement audio.
Shahar Elisha, Andrew McDowell, Mariano Beguerisse-Díaz
― 8 min lire
DAAN améliore la façon dont les machines apprennent à partir de données audio-visuelles dans des scénarios zéro-shot.
RunLin Yu, Yipu Gong, Wenrui Li
― 7 min lire
Une nouvelle méthode améliore la détection des deepfakes audio en utilisant des techniques d'apprentissage innovantes.
Yujie Chen, Jiangyan Yi, Cunhang Fan
― 8 min lire
Alors que les machines produisent de la musique, on doit protéger la créativité humaine avec des méthodes de détection efficaces.
Yupei Li, Qiyang Sun, Hanqian Li
― 11 min lire
De nouveaux modèles identifient la voix synthétique et luttent contre l'utilisation abusive de la technologie vocale.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 7 min lire
TAME utilise le son pour détecter les drones, améliorant la sécurité et la surveillance.
Zhenyuan Xiao, Huanran Hu, Guili Xu
― 7 min lire
Découvrez comment CAMEL améliore la compréhension des conversations en langues mélangées.
He Wang, Xucheng Wan, Naijun Zheng
― 7 min lire
Des recherches montrent que l'activité cérébrale peut aider les machines à reconnaître la musique efficacement.
Taketo Akama, Zhuohao Zhang, Pengcheng Li
― 8 min lire
La technologie audio offre un moyen économique de suivre les UAVs en toute sécurité.
Allen Lei, Tianchen Deng, Han Wang
― 7 min lire
Une nouvelle méthode d'IA analyse les voix pour détecter le risque de cancer du larynx.
Mary Paterson, James Moor, Luisa Cutillo
― 9 min lire
Découvrez comment la synthèse vidéo-audio transforme nos expériences médias avec un son parfaitement aligné.
Ho Kei Cheng, Masato Ishii, Akio Hayakawa
― 9 min lire
Un nouveau système révolutionne la façon dont les designers sonores créent des audio pour les vidéos.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 10 min lire
Un aperçu de comment l'amélioration de la parole booste la communication grâce aux caractéristiques des données.
Leying Zhang, Wangyou Zhang, Chenda Li
― 10 min lire
Découvrez comment la tech TTA fusionne mots et sons pour des expériences audio plus riches.
Yuhang He, Yash Jain, Xubo Liu
― 9 min lire
Une nouvelle méthode améliore la synchronisation labiale dans les vidéos doublées pour une expérience de visionnage plus naturelle.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 8 min lire
Découvrez comment Whisper améliore la reconnaissance vocale dans les conversations multilingues.
Jiahui Zhao, Hao Shi, Chenrui Cui
― 6 min lire
Une nouvelle approche rend la reconnaissance sonore plus accessible et efficace.
Noriyuki Tonami, Wataru Kohno, Keisuke Imoto
― 8 min lire
Apprends comment l'anonymisation vocale protège les infos perso dans un monde dominé par la tech.
Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi
― 7 min lire
Fusion des indices audio et visuels pour améliorer la reconnaissance vocale dans des environnements bruyants.
Zhaofeng Lin, Naomi Harte
― 7 min lire
La technologie d'amélioration de la parole s'adapte pour réduire le bruit et améliorer la communication.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 6 min lire
Une nouvelle tech combine le son et les visuels pour une meilleure détection des drones.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 8 min lire
Explorer des nouvelles technologies qui détectent des sons provenant de sources invisibles.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min lire
Découvrez comment Smooth-Foley améliore la génération audio pour les vidéos.
Yaoyun Zhang, Xuenan Xu, Mengyue Wu
― 7 min lire
Une technique innovante relie les paroles et les mélodies pour créer de meilleures chansons.
Jiaxing Yu, Xinda Wu, Yunfei Xu
― 8 min lire
Améliorer la compréhension par les machines des dynamiques de tour de parole dans les dialogues humains.
Hyunbae Jeon, Frederic Guintu, Rayvant Sahni
― 10 min lire
Explorer comment la langue influence la précision de détection des DeepFake dans différentes langues.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 7 min lire
VERSA évalue efficacement la qualité de la parole, de l'audio et de la musique.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 11 min lire
Découvrez comment les modèles audio-linguistiques transforment la technologie de reconnaissance sonore.
Gongyu Chen, Haomin Zhang, Chaofan Ding
― 7 min lire
De nouvelles méthodes améliorent le dialogue naturel dans la technologie de la parole.
Zhenqi Jia, Rui Liu
― 7 min lire
Découvrez comment SpeechSSM transforme la génération de discours long pour de meilleures interactions.
Se Jin Park, Julian Salazar, Aren Jansen
― 6 min lire
Découvrez comment la traduction en temps réel transforme la communication entre les langues.
Sara Papi, Peter Polak, Ondřej Bojar
― 7 min lire
Un modèle léger conçu pour séparer efficacement les discours mélangés dans des environnements bruyants.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 7 min lire
Des chercheurs s'attaquent au spoofing audio pour améliorer la sécurité de la reconnaissance vocale.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 11 min lire
Une nouvelle méthode transforme la façon dont les machines apprennent de la musique.
Julien Guinot, Elio Quinton, György Fazekas
― 8 min lire
Une nouvelle technologie transforme les murmures silencieux en communication audible pour ceux qui en ont besoin.
Neil Shah, Shirish Karande, Vineet Gandhi
― 7 min lire