Un nouveau benchmark révèle des lacunes dans les compétences de raisonnement spatial 3D de l'IA.
Wufei Ma, Haoyu Chen, Guofeng Zhang
― 8 min lire
La science de pointe expliquée simplement
Un nouveau benchmark révèle des lacunes dans les compétences de raisonnement spatial 3D de l'IA.
Wufei Ma, Haoyu Chen, Guofeng Zhang
― 8 min lire
Un regard approfondi sur les galères de SAM avec des objets et des textures compliqués.
Yixin Zhang, Nicholas Konz, Kevin Kramer
― 8 min lire
Une nouvelle méthode améliore la cohérence des images en utilisant des modèles vidéo avancés.
Alex Trevithick, Roni Paiss, Philipp Henzler
― 10 min lire
De nouvelles méthodes aident les robots à mieux voir dans des conditions d'éclairage difficiles.
Simon Kristoffersson Lind, Rudolph Triebel, Volker Krüger
― 6 min lire
Découvrez comment de nouvelles méthodes transforment la génération d'images pour des poses réalistes.
Donghwna Lee, Kyungha Min, Kirok Kim
― 7 min lire
De nouvelles techniques améliorent la façon dont les machines comprennent les images, imitant la perception humaine.
Simone Azeglio, Olivier Marre, Peter Neri
― 11 min lire
Découvrez comment des chercheurs recréent des formes complexes à partir d'images simples en utilisant des méthodes innovantes.
Hui Deng, Jiawei Shi, Zhen Qin
― 7 min lire
Découvrez comment des méthodes innovantes améliorent la synthèse d'images à partir de descriptions textuelles.
Xu Ouyang, Ying Chen, Kaiyue Zhu
― 11 min lire
Découvrez comment le lien multimodal d'entités combine texte et visuels pour une meilleure compréhension.
Zhiwei Hu, Víctor Gutiérrez-Basulto, Ru Li
― 7 min lire
Une plongée approfondie sur comment les ordis identifient les actions humaines avec des objets.
Mingda Jia, Liming Zhao, Ge Li
― 8 min lire
Découvrez comment CAT améliore l'apprentissage machine avec des stratégies de données innovantes.
Sumaiya Zoha, Jeong-Gun Lee, Young-Woong Ko
― 9 min lire
Découvrez comment POINTS1.5 améliore les capacités de traitement d'images et de textes.
Yuan Liu, Le Tian, Xiao Zhou
― 8 min lire
De nouvelles méthodes améliorent les prédictions vidéo en utilisant moins de données.
Gaurav Shrivastava, Abhinav Shrivastava
― 7 min lire
ALoRE optimise l'entraînement des modèles pour une reconnaissance d'images efficace et des applications plus larges.
Sinan Du, Guosheng Zhang, Keyao Wang
― 8 min lire
Apprends comment l'IA répond aux questions visuelles et donne des explications.
Pascal Tilli, Ngoc Thang Vu
― 8 min lire
Apprends comment éviter l'effondrement des modèles dans les modèles génératifs en utilisant des données réelles.
Huminhao Zhu, Fangyikang Wang, Tianyu Ding
― 8 min lire
Découvrez comment les illusions visuelles impactent les modèles VQA et leur performance.
Mohammadmostafa Rostamkhani, Baktash Ansari, Hoorieh Sabzevari
― 7 min lire
Découvrez comment les modèles de langage visuel relient les images et le texte pour des machines plus intelligentes.
Quang-Hung Le, Long Hoang Dang, Ngan Le
― 9 min lire
Un nouveau jeu de données combine la compréhension vidéo de haut niveau et au niveau des pixels pour des recherches avancées.
Ali Athar, Xueqing Deng, Liang-Chieh Chen
― 11 min lire
Découvrez comment V2PE améliore les modèles Vision-Langage pour une meilleure compréhension des longs contextes.
Junqi Ge, Ziyi Chen, Jintao Lin
― 7 min lire
Découvre comment de nouvelles méthodes améliorent la précision du timing dans l'analyse vidéo.
Xizi Wang, Feng Cheng, Ziyang Wang
― 6 min lire
Une nouvelle approche améliore l'analyse vidéo avec des systèmes de jetons dynamiques.
Han Wang, Yuxiang Nie, Yongjie Ye
― 11 min lire
OV-VSS révolutionne la façon dont les machines comprennent le contenu vidéo, identifiant de nouveaux objets sans effort.
Xinhao Li, Yun Liu, Guolei Sun
― 10 min lire
Examen de l'efficacité des modèles de diffusion latente conditionnelle dans la restauration d'images.
Yunchen Yuan, Junyuan Xiao, Xinjie Li
― 11 min lire
Les chercheurs évaluent l'efficacité des modèles U-Net dans les tâches de segmentation d'images.
Robin Ghyselinck, Valentin Delchevalerie, Bruno Dumas
― 7 min lire
Combiner des caméras événementielles et basées sur des images améliore les capacités d'estimation de mouvement.
Qianang Zhou, Zhiyu Zhu, Junhui Hou
― 8 min lire
Une nouvelle méthode aide les systèmes d'IA à s'adapter plus efficacement aux données inconnues.
Jin-Seop Lee, Noo-ri Kim, Jee-Hyong Lee
― 7 min lire
Explore comment les machines analysent les images sous différents angles pour une meilleure interprétation.
Honggyu An, Jinhyeon Kim, Seonghoon Park
― 9 min lire
Apprends comment on apprend aux ordis à reconnaître les actions humaines avec des objets.
Mingda Jia, Liming Zhao, Ge Li
― 9 min lire
Découvre comment le STEAM transforme l'apprentissage profond avec des mécanismes d'attention efficaces.
Rishabh Sabharwal, Ram Samarth B B, Parikshit Singh Rathore
― 9 min lire
DeepSeek-VL2 fusionne les données visuelles et textuelles pour des interactions AI plus intelligentes.
Zhiyu Wu, Xiaokang Chen, Zizheng Pan
― 6 min lire
Découvre comment la segmentation guidée par des prompts change la technologie de reconnaissance d'images.
Yu-Jhe Li, Xinyang Zhang, Kun Wan
― 9 min lire
SuperGSeg apporte de la clarté aux scènes 3D complexes grâce à des techniques de segmentation avancées.
Siyun Liang, Sen Wang, Kunyi Li
― 7 min lire
Un nouveau test pour que les machines répondent à des questions sur des images et du texte.
Hyeonseok Lim, Dongjae Shin, Seohyun Song
― 9 min lire
De nouvelles méthodes améliorent le marquage d'images pour de meilleures performances et une meilleure efficacité du modèle.
Niclas Popp, Dan Zhang, Jan Hendrik Metzen
― 9 min lire
Découvre comment les machines améliorent leur compréhension des images et des textes.
Yeyuan Wang, Dehong Gao, Lei Yi
― 8 min lire
Une nouvelle méthode améliore la distillation des datasets pour une reconnaissance d'images efficace.
Xinhao Zhong, Shuoyang Sun, Xulin Gu
― 7 min lire
Découvrez comment les autoencodeurs Wasserstein jumelés génèrent des images en fonction de conditions spécifiques.
Moritz Piening, Matthias Chung
― 7 min lire
Des chercheurs découvrent comment l'IA imite la vision humaine grâce aux réseaux de neurones convolutifs.
Yudi Xie, Weichen Huang, Esther Alter
― 8 min lire
RapidNet améliore la vitesse et la précision du traitement des images sur mobile.
Mustafa Munir, Md Mostafijur Rahman, Radu Marculescu
― 8 min lire