Une plongée approfondie sur comment les ordis identifient les actions humaines avec des objets.
Mingda Jia, Liming Zhao, Ge Li
― 8 min lire
La science de pointe expliquée simplement
Une plongée approfondie sur comment les ordis identifient les actions humaines avec des objets.
Mingda Jia, Liming Zhao, Ge Li
― 8 min lire
Découvrez comment les illusions visuelles impactent les modèles VQA et leur performance.
Mohammadmostafa Rostamkhani, Baktash Ansari, Hoorieh Sabzevari
― 7 min lire
Les robots peuvent apprendre grâce aux conversations, améliorant leurs compétences et leur adaptabilité.
Jonghyuk Park, Alex Lascarides, Subramanian Ramamoorthy
― 6 min lire
Découvrez comment GenEx transforme des images en mondes virtuels immersifs.
Taiming Lu, Tianmin Shu, Junfei Xiao
― 8 min lire
Explorer comment les machines perçoivent les visuels par rapport à la vision humaine.
Jiaying Lin, Shuquan Ye, Rynson W. H. Lau
― 8 min lire
Gaze-LLE simplifie l'estimation du regard, rendant plus précis et efficace la compréhension de l'attention humaine.
Fiona Ryan, Ajay Bati, Sangmin Lee
― 7 min lire
Découvrez comment le USDRL change notre façon de reconnaître les actions humaines.
Wanjiang Weng, Hongsong Wang, Junbo Wang
― 8 min lire
Apprends comment on apprend aux ordis à reconnaître les actions humaines avec des objets.
Mingda Jia, Liming Zhao, Ge Li
― 9 min lire
La méthode MPPO révolutionnaire améliore les réponses de l'IA grâce aux retours humains.
Shuo Xie, Fangzhi Zhu, Jiahui Wang
― 8 min lire
Découvrez comment les chercheurs améliorent l'alignement de l'IA avec les valeurs humaines grâce à des méthodes innovantes.
Shambhavi Krishna, Aishwarya Sahoo
― 8 min lire
Découvre comment la segmentation guidée par des prompts change la technologie de reconnaissance d'images.
Yu-Jhe Li, Xinyang Zhang, Kun Wan
― 9 min lire
Un aperçu de ce que sont vraiment les grands modèles de langage et de leurs capacités.
Murray Shanahan
― 6 min lire
Un outil qui améliore l'attribution des tâches grâce à des explications claires et à l'interaction avec les utilisateurs.
Guillaume Povéda, Ryma Boumazouza, Andreas Strahl
― 9 min lire
Découvrez comment RASP améliore la compréhension des machines du langage humain.
Xiao Zhang, Qianru Meng, Johan Bos
― 10 min lire
Un nouveau test pour que les machines répondent à des questions sur des images et du texte.
Hyeonseok Lim, Dongjae Shin, Seohyun Song
― 9 min lire
Les modèles de langage galèrent avec la planification dans le monde réel malgré leurs compétences en génération de texte.
Cassie Huang, Li Zhang
― 7 min lire
Les systèmes d'IA améliorent leur compréhension des interfaces graphiques pour offrir de meilleures expériences utilisateur.
Hai-Ming Xu, Qi Chen, Lei Wang
― 9 min lire
Manipuler le comportement de l'IA présente des risques sérieux dans les systèmes avancés.
Fengshuo Bai, Runze Liu, Yali Du
― 8 min lire
Un nouveau système permet aux robots de comprendre des commandes vocales et de ramasser des objets.
Junliang Li, Kai Ye, Haolan Kang
― 9 min lire
Découvrez comment les systèmes TTS évoluent pour sonner de plus en plus humain.
Haowei Lou, Helen Paik, Wen Hu
― 9 min lire
CG-Bench aide les machines à analyser les longues vidéos avec des questions basées sur des indices.
Guo Chen, Yicheng Liu, Yifei Huang
― 7 min lire
Combiner différents types d'infos pour améliorer la compréhension de l'intelligence artificielle.
Giordano Cicchetti, Eleonora Grassucci, Luigi Sigillo
― 6 min lire
Un nouveau benchmark pour tester le raisonnement des LLM à travers les différentes cultures.
Mohammad Aflah Khan, Neemesh Yadav, Sarah Masud
― 9 min lire
Découvre comment l'IA peut s'aligner sur les intentions humaines sans résultats inattendus.
Paria Rashidinejad, Yuandong Tian
― 6 min lire
Une nouvelle méthode améliore la précision des modèles 3D de mains à partir d'images uniques en utilisant la modélisation masquée générative.
Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Mayur Jagdishbhai Patel
― 7 min lire
Découvre comment l'IA galère à comprendre les dates et les heures.
Gagan Bhatia, MingZe Tang, Cristina Mahanta
― 7 min lire
Découvre comment l'IA améliore la gestion de la mémoire pour des interactions plus cool.
Elvis Nunez, Luca Zancato, Benjamin Bowman
― 9 min lire
Un nouveau modèle prédit les mouvements des mains à partir du langage quotidien.
Chen Bao, Jiarui Xu, Xiaolong Wang
― 7 min lire
Découvrez les dernières avancées en reconnaissance vocale en temps réel et comment elles améliorent nos échanges.
Rongxiang Wang, Zhiming Xu, Felix Xiaozhu Lin
― 6 min lire
Découvre comment les machines apprennent à combiner visuels et texte pour mieux raisonner.
Zihui Cheng, Qiguang Chen, Jin Zhang
― 7 min lire
Une nouvelle méthode transforme la manière dont la technologie capture les mouvements des mains avec des caméras en mouvement.
Zhengdi Yu, Stefanos Zafeiriou, Tolga Birdal
― 6 min lire
Découvre comment le TTS émotionnel change la communication avec les machines, les rendant plus proches.
Sho Inoue, Kun Zhou, Shuai Wang
― 7 min lire
Des chercheurs ont développé le cadre SPHERE pour améliorer la compréhension des relations spatiales par les machines.
Wenyu Zhang, Wei En Ng, Lixin Ma
― 9 min lire
Un nouveau référentiel évalue à quel point les modèles d'IA répondent à divers besoins humains.
YiFan Zhang, Shanglin Lei, Runqi Qiao
― 10 min lire
Une méthode qui aligne les modèles de langage avec les préférences humaines grâce à une calibration efficace.
Teng Xiao, Yige Yuan, Huaisheng Zhu
― 9 min lire
Explorer comment les systèmes d'IA galèrent avec le raisonnement spatial comparé aux humains.
Jihan Yang, Shusheng Yang, Anjali W. Gupta
― 8 min lire
Comprendre le mouvement humain est crucial pour le travail d'équipe des robots.
Kevin Haninger, Luka Peternel
― 6 min lire
Révolutionner la façon dont l'IA comprend les images et le texte pour des systèmes plus intelligents.
Yuchong Geng, Ao Tang
― 9 min lire
Un nouvel outil améliore les réponses de l'IA pour mieux correspondre aux préférences humaines.
Zhuoran Jin, Hongbang Yuan, Tianyi Men
― 5 min lire
Le dataset TH OR-MAGNI Act améliore les prédictions des robots sur les mouvements humains.
Tiago Rodrigues de Almeida, Tim Schreiter, Andrey Rudenko
― 9 min lire