Découvre le Frechet Music Distance et son rôle dans l'évaluation de la musique générée par l'IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 11 min lire
New Science Research Articles Everyday
Découvre le Frechet Music Distance et son rôle dans l'évaluation de la musique générée par l'IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 11 min lire
Derniers articles
Sudha Krishnamurthy
― 7 min lire
Jianwei Cui, Yu Gu, Shihao Chen
― 6 min lire
Evangelia Gkritzali, Panagiotis Kaliosis, Sofia Galanaki
― 7 min lire
Quang-Anh N. D., Manh-Hung Ha, Thai Kim Dinh
― 7 min lire
Hugo Flores García, Oriol Nieto, Justin Salamon
― 9 min lire
Les techniques de filigrane protègent les droits des artistes dans la génération de musique avec l'IA.
Pascal Epple, Igor Shilov, Bozhidar Stevanoski
― 9 min lire
Transformer de l'audio mono en expériences binaurales immersives avec des techniques innovantes.
Alon Levkovitch, Julian Salazar, Soroosh Mariooryad
― 9 min lire
La recherche examine comment les modèles d'amélioration de la parole gardent l'accent sur les syllabes malgré le bruit.
Rangavajjala Sankara Bharadwaj, Jhansi Mallela, Sai Harshitha Aluru
― 8 min lire
Un nouveau cadre améliore l'alignement des sons et des visuels dans les vidéos.
Kexin Li, Zongxin Yang, Yi Yang
― 8 min lire
Révolutionner la synthèse vocale avec des voix plus naturelles et une meilleure efficacité.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 7 min lire
Découvrez comment les systèmes TTS évoluent pour sonner de plus en plus humain.
Haowei Lou, Helen Paik, Wen Hu
― 9 min lire
Nouveau système qui transforme le contrôle audio grâce à des descriptions textuelles détaillées.
Sonal Kumar, Prem Seetharaman, Justin Salamon
― 9 min lire
Combiner vidéo et audio pour mieux détecter les émotions.
Antonio Fernandez, Suzan Awinat
― 11 min lire
YingSound révolutionne la production vidéo en automatisant la création d'effets sonores.
Zihao Chen, Haomin Zhang, Xinhan Di
― 8 min lire
Les chercheurs utilisent des échos pour marquer l'audio, garantissant que les droits des créateurs sont protégés.
Christopher J. Tralie, Matt Amery, Benjamin Douglas
― 10 min lire
Les robots peuvent maintenant naviguer dans des environnements compliqués en utilisant le son grâce à SonicBoom.
Moonyoung Lee, Uksang Yoo, Jean Oh
― 7 min lire
Le modèle MASV améliore la vérification vocale, garantissant sécurité et efficacité.
Yang Liu, Li Wan, Yiteng Huang
― 6 min lire
Explorer l'impact des outils d'IA sur la création musicale et les perspectives des compositeurs.
Eleanor Row, György Fazekas
― 9 min lire
La technologie de reconnaissance vocale améliore la reconnaissance des chiffres, surtout dans des environnements bruyants.
Ali Nasr-Esfahani, Mehdi Bekrani, Roozbeh Rajabi
― 6 min lire
Améliorer les performances de l'ASR multilingue pour le japonais grâce à un réglage fin ciblé.
Mark Bajo, Haruka Fukukawa, Ryuji Morita
― 7 min lire
Explorer comment les BCI décodent la parole imaginée pour améliorer la communication.
Byung-Kwan Ko, Jun-Young Kim, Seo-Hyun Lee
― 8 min lire
SonicMesh utilise le son pour améliorer la modélisation 3D du corps humain à partir d'images.
Xiaoxuan Liang, Wuyang Zhang, Hong Zhou
― 6 min lire
Découvrez les dernières avancées en reconnaissance vocale en temps réel et comment elles améliorent nos échanges.
Rongxiang Wang, Zhiming Xu, Felix Xiaozhu Lin
― 6 min lire
Des chercheurs améliorent le traitement de la parole en utilisant Libri2Vox et des techniques de données synthétiques.
Yun Liu, Xuechen Liu, Xiaoxiao Miao
― 7 min lire
Découvre comment le TTS émotionnel change la communication avec les machines, les rendant plus proches.
Sho Inoue, Kun Zhou, Shuai Wang
― 7 min lire
Apprends comment les sons des insectes peuvent aider à surveiller les écosystèmes et gérer les nuisibles.
Yinxuan Wang, Sudip Vhaduri
― 8 min lire
De nouvelles méthodes aident les machines à trouver des infos clés à partir de contenus parlés.
Yueqian Lin, Yuzhe Fu, Jingyang Zhang
― 6 min lire
Découvrez comment l'IA simplifie la collecte de données de discours grâce à l'crowdsourcing.
Beomseok Lee, Marco Gaido, Ioan Calapodescu
― 6 min lire
Explore les différences entre la parole spontanée et la parole scriptée dans le traitement audio.
Shahar Elisha, Andrew McDowell, Mariano Beguerisse-Díaz
― 8 min lire
DAAN améliore la façon dont les machines apprennent à partir de données audio-visuelles dans des scénarios zéro-shot.
RunLin Yu, Yipu Gong, Wenrui Li
― 7 min lire
Une nouvelle méthode améliore la détection des deepfakes audio en utilisant des techniques d'apprentissage innovantes.
Yujie Chen, Jiangyan Yi, Cunhang Fan
― 8 min lire
Un nouveau modèle de Singapour améliore la compréhension de la parole par les machines.
Muhammad Huzaifah, Geyu Lin, Tianchi Liu
― 8 min lire
Alors que les machines produisent de la musique, on doit protéger la créativité humaine avec des méthodes de détection efficaces.
Yupei Li, Qiyang Sun, Hanqian Li
― 11 min lire
De nouveaux modèles identifient la voix synthétique et luttent contre l'utilisation abusive de la technologie vocale.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 7 min lire
TAME utilise le son pour détecter les drones, améliorant la sécurité et la surveillance.
Zhenyuan Xiao, Huanran Hu, Guili Xu
― 7 min lire
Découvrez comment CAMEL améliore la compréhension des conversations en langues mélangées.
He Wang, Xucheng Wan, Naijun Zheng
― 7 min lire
Des recherches montrent que l'activité cérébrale peut aider les machines à reconnaître la musique efficacement.
Taketo Akama, Zhuohao Zhang, Pengcheng Li
― 8 min lire
La technologie audio offre un moyen économique de suivre les UAVs en toute sécurité.
Allen Lei, Tianchen Deng, Han Wang
― 7 min lire
Une nouvelle méthode d'IA analyse les voix pour détecter le risque de cancer du larynx.
Mary Paterson, James Moor, Luisa Cutillo
― 9 min lire
Découvrez comment la synthèse vidéo-audio transforme nos expériences médias avec un son parfaitement aligné.
Ho Kei Cheng, Masato Ishii, Akio Hayakawa
― 9 min lire
Un nouveau système révolutionne la façon dont les designers sonores créent des audio pour les vidéos.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 10 min lire
Un aperçu de comment l'amélioration de la parole booste la communication grâce aux caractéristiques des données.
Leying Zhang, Wangyou Zhang, Chenda Li
― 10 min lire
De nouvelles méthodes améliorent les systèmes ASR pour des langues qu'ils n'ont jamais rencontrées avant.
Shao-Syuan Huang, Kuan-Po Huang, Andy T. Liu
― 8 min lire
Découvrez comment la tech TTA fusionne mots et sons pour des expériences audio plus riches.
Yuhang He, Yash Jain, Xubo Liu
― 9 min lire
Des chercheurs améliorent la reconnaissance vocale en suisse-allemand grâce à une génération de données innovante.
Vincenzo Timmel, Claudio Paonessa, Reza Kakooee
― 8 min lire
Une nouvelle méthode améliore la synchronisation labiale dans les vidéos doublées pour une expérience de visionnage plus naturelle.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 8 min lire
Découvrez comment Whisper améliore la reconnaissance vocale dans les conversations multilingues.
Jiahui Zhao, Hao Shi, Chenrui Cui
― 6 min lire
Découvrez comment SpeechRAG améliore la réponse aux questions audio sans erreurs ASR.
Do June Min, Karel Mundnich, Andy Lapastora
― 7 min lire
Une nouvelle approche rend la reconnaissance sonore plus accessible et efficace.
Noriyuki Tonami, Wataru Kohno, Keisuke Imoto
― 8 min lire
Apprends comment l'anonymisation vocale protège les infos perso dans un monde dominé par la tech.
Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi
― 7 min lire
Fusion des indices audio et visuels pour améliorer la reconnaissance vocale dans des environnements bruyants.
Zhaofeng Lin, Naomi Harte
― 7 min lire
La technologie d'amélioration de la parole s'adapte pour réduire le bruit et améliorer la communication.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 6 min lire
Une nouvelle tech combine le son et les visuels pour une meilleure détection des drones.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 8 min lire
Une nouvelle approche combine la parole et le texte pour de meilleures évaluations de la dysarthrie.
Anuprabha M, Krishna Gurugubelli, Kesavaraj V
― 7 min lire
Explorer des nouvelles technologies qui détectent des sons provenant de sources invisibles.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min lire
Découvrez comment Smooth-Foley améliore la génération audio pour les vidéos.
Yaoyun Zhang, Xuenan Xu, Mengyue Wu
― 7 min lire
Une technique innovante relie les paroles et les mélodies pour créer de meilleures chansons.
Jiaxing Yu, Xinda Wu, Yunfei Xu
― 8 min lire
Améliorer la compréhension par les machines des dynamiques de tour de parole dans les dialogues humains.
Hyunbae Jeon, Frederic Guintu, Rayvant Sahni
― 10 min lire
Explorer comment la langue influence la précision de détection des DeepFake dans différentes langues.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 7 min lire
VERSA évalue efficacement la qualité de la parole, de l'audio et de la musique.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 11 min lire
Découvrez comment les modèles audio-linguistiques transforment la technologie de reconnaissance sonore.
Gongyu Chen, Haomin Zhang, Chaofan Ding
― 7 min lire
De nouvelles méthodes améliorent le dialogue naturel dans la technologie de la parole.
Zhenqi Jia, Rui Liu
― 7 min lire
Découvrez comment SpeechSSM transforme la génération de discours long pour de meilleures interactions.
Se Jin Park, Julian Salazar, Aren Jansen
― 6 min lire
Découvrez comment la traduction en temps réel transforme la communication entre les langues.
Sara Papi, Peter Polak, Ondřej Bojar
― 7 min lire
Un modèle léger conçu pour séparer efficacement les discours mélangés dans des environnements bruyants.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 7 min lire
Des chercheurs s'attaquent au spoofing audio pour améliorer la sécurité de la reconnaissance vocale.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 11 min lire
Découvrez comment l'AV-ASR combine audio et visuels pour améliorer la reconnaissance vocale.
Yihan Wu, Yichen Lu, Yifan Peng
― 7 min lire
Une nouvelle méthode transforme la façon dont les machines apprennent de la musique.
Julien Guinot, Elio Quinton, György Fazekas
― 8 min lire
Une nouvelle technologie transforme les murmures silencieux en communication audible pour ceux qui en ont besoin.
Neil Shah, Shirish Karande, Vineet Gandhi
― 7 min lire
De nouvelles méthodes en synthèse vocale améliorent la clarté et l'adaptabilité pour des applications variées.
Neil Shah, Ayan Kashyap, Shirish Karande
― 9 min lire
Découvre la riche tradition des chants de l'Église orthodoxe éthiopienne Tewahedo.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Li Su
― 8 min lire
Un nouveau dataset met en avant la beauté des chants orthodoxes éthiopiens.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Worku Abebe Degife
― 9 min lire
De nouvelles avancées aident la technologie de reconnaissance vocale à mieux servir les personnes ayant des troubles de la parole.
Jimmy Tobin, Katrin Tomanek, Subhashini Venugopalan
― 8 min lire
Découvrez comment ETTA transforme des mots en expériences audio créatives.
Sang-gil Lee, Zhifeng Kong, Arushi Goel
― 7 min lire
Une nouvelle façon de voir comment la musique influence nos émotions.
Dengming Zhang, Weitao You, Ziheng Liu
― 8 min lire
Un nouveau cadre pour créer des danses de groupe synchronisées et naturelles.
Kaixing Yang, Xulong Tang, Haoyu Wu
― 10 min lire
Nouvelle approche dans la reconnaissance des émotions se concentre sur les mouvements de la bouche plutôt que sur les sons.
Shreya G. Upadhyay, Ali N. Salman, Carlos Busso
― 7 min lire
Découvre comment Stable-TTS améliore la technologie de synthèse vocale pour une expérience plus humaine.
Wooseok Han, Minki Kang, Changhun Kim
― 9 min lire
La technologie innovante des ondes sonores offre de nouvelles perspectives sur la vitesse de marche en intérieur.
Sheng Lyu, Chenshu Wu
― 7 min lire
Les assistants audio deviennent plus malins avec AQA-K, améliorant les réponses grâce à la connaissance.
Abhirama Subramanyam Penamakuri, Kiran Chhatre, Akshat Jain
― 7 min lire
Des chercheurs étudient comment notre cerveau contrôle la parole et ce que ça implique pour la récupération.
Eric Easthope
― 8 min lire
Découvre comment le texte peut se transformer en audio grâce à des modèles à la pointe de la technologie.
Chia-Yu Hung, Navonil Majumder, Zhifeng Kong
― 4 min lire