Découvre le Frechet Music Distance et son rôle dans l'évaluation de la musique générée par l'IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 11 min lire
New Science Research Articles Everyday
Découvre le Frechet Music Distance et son rôle dans l'évaluation de la musique générée par l'IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 11 min lire
Derniers articles
Sudha Krishnamurthy
― 7 min lire
Zhangbin Li, Jinxing Zhou, Jing Zhang
― 8 min lire
Kexin Li, Zongxin Yang, Yi Yang
― 8 min lire
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 7 min lire
Antonio Fernandez, Suzan Awinat
― 11 min lire
De nouvelles techniques améliorent la façon dont les machines reconnaissent et interprètent les scènes vidéo.
Phúc H. Le Khac, Graham Healy, Alan F. Smeaton
― 9 min lire
YingSound révolutionne la production vidéo en automatisant la création d'effets sonores.
Zihao Chen, Haomin Zhang, Xinhan Di
― 8 min lire
Les chercheurs utilisent des échos pour marquer l'audio, garantissant que les droits des créateurs sont protégés.
Christopher J. Tralie, Matt Amery, Benjamin Douglas
― 10 min lire
Cette étude évalue à quel point les modèles de langage reconnaissent les entités musicales dans le texte.
Simon Hachmeier, Robert Jäschke
― 9 min lire
Découvrez comment les reprises de chansons sont identifiées sur YouTube avec des nouvelles méthodes.
Simon Hachmeier, Robert Jäschke
― 7 min lire
Découvre comment les trajets de vol gardent les drones en sécurité et bien organisés.
Shuqin Zhu, Shahram Ghandeharizadeh
― 6 min lire
Découvrez comment les drones créent des affichages 3D interactifs pour le divertissement et la santé.
Nima Yazdani, Hamed Alimohammadzadeh, Shahram Ghandeharizadeh
― 6 min lire
Une nouvelle méthode aide à résumer le contenu vidéo facilement.
Shiping Ge, Qiang Chen, Zhiwei Jiang
― 8 min lire
Un nouveau modèle accélère la recherche de vidéos tout en améliorant la précision.
Jinpeng Wang, Niu Lian, Jun Li
― 8 min lire
DAAN améliore la façon dont les machines apprennent à partir de données audio-visuelles dans des scénarios zéro-shot.
RunLin Yu, Yipu Gong, Wenrui Li
― 7 min lire
Transforme ta façon de filmer avec un contrôle de caméra amélioré et des effets artistiques.
Xi Wang, Robin Courant, Marc Christie
― 8 min lire
Découvrez comment la créativité des joueurs transforme les jeux vidéo et l'engagement communautaire.
Yuyue Liu, Haihan Duan, Wei Cai
― 7 min lire
Un nouveau cadre améliore les vidéos en langue des signes pour une meilleure communication.
Shengeng Tang, Jiayi He, Dan Guo
― 7 min lire
Découvrez comment les systèmes de recommandation multimodaux améliorent les achats en ligne.
Rongqing Kenneth Ong, Andy W. H. Khong
― 8 min lire
Un nouveau système révolutionne la façon dont les designers sonores créent des audio pour les vidéos.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 10 min lire
Une nouvelle méthode améliore la synchronisation labiale dans les vidéos doublées pour une expérience de visionnage plus naturelle.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 8 min lire
Une nouvelle technologie transforme les mots parlés en langue des signes pour une meilleure communication.
Xu Wang, Shengeng Tang, Peipei Song
― 6 min lire
Une nouvelle tech combine le son et les visuels pour une meilleure détection des drones.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 8 min lire
Explorer des nouvelles technologies qui détectent des sons provenant de sources invisibles.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min lire
Une nouvelle méthode prédit la qualité des images pour les humains et les machines.
Qi Zhang, Shanshe Wang, Xinfeng Zhang
― 9 min lire
VERSA évalue efficacement la qualité de la parole, de l'audio et de la musique.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 11 min lire
Découvrez comment RDPM transforme la création d'images avec des méthodes avancées.
Xiaoping Wu, Jie Hu, Xiaoming Wei
― 10 min lire
FACEMUG transforme la retouche photo avec des outils précis pour les ajustements faciaux.
Wanglong Lu, Jikai Wang, Xiaogang Jin
― 9 min lire
La reconnaissance dynamique des expressions faciales transforme les interactions humain-ordinateur grâce à une analyse des émotions en temps réel.
Peihao Xiang, Kaida Wu, Chaohao Lin
― 10 min lire
Combiner la langue et la vidéo pour améliorer l'apprentissage des robots.
Dejie Yang, Zijing Zhao, YangLiu
― 8 min lire
Une nouvelle méthode améliore la façon dont les ordis suivent des objets en utilisant des visuels et du texte.
X. Feng, D. Zhang, S. Hu
― 6 min lire
Un nouveau cadre pour créer des danses de groupe synchronisées et naturelles.
Kaixing Yang, Xulong Tang, Haoyu Wu
― 10 min lire
Les assistants audio deviennent plus malins avec AQA-K, améliorant les réponses grâce à la connaissance.
Abhirama Subramanyam Penamakuri, Kiran Chhatre, Akshat Jain
― 7 min lire
Découvrez comment la restauration de visages flous apporte de la clarté aux images floues.
Wanglong Lu, Jikai Wang, Tao Wang
― 7 min lire
Des méthodes innovantes émergent pour lutter contre la montée des deepfakes réalistes.
Yi Zhang, Weize Gao, Changtao Miao
― 9 min lire
Découvre comment ChartAdapter transforme des graphiques complexes en résumés clairs.
Peixin Xu, Yujuan Ding, Wenqi Fan
― 7 min lire