Hongsheng Li

Robotique Faire avancer l'interaction robotique avec ManipVQA

Un nouveau système améliore la façon dont les robots comprennent et interagissent avec les objets.

2025-08-28T15:19:12+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Transformer la compréhension d'image avec SPHINX-V

SPHINX-V améliore la capacité de l'IA à interpréter les images grâce à l'interaction des utilisateurs.

2025-08-24T07:49:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Améliorer le contrôle de la caméra dans la génération de vidéos

Une nouvelle méthode améliore le contrôle des mouvements de la caméra dans la création de vidéos à partir de texte.

2025-08-23T07:44:06+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans les techniques de génération de scènes urbaines

Une nouvelle méthode mélange des mises en page 3D et du texte pour créer de meilleures scènes urbaines.

2025-08-20T16:08:24+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Lumina-T2X : Une nouvelle ère dans la création de médias

Transforme du texte en images, vidéos et audio sans accroc avec Lumina-T2X.

2025-08-12T05:14:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Any2Point : Connecter la compréhension 3D dans les modèles d'IA

Un nouveau cadre améliore la compréhension de l'IA des espaces 3D.

2025-08-11T19:14:05+00:00 ― 9 min lire

Calcul et langage Méthode innovante pour le remplissage de texte au niveau des caractères

Une nouvelle technique améliore la génération de texte dans le traitement du langage naturel.

2025-08-06T02:18:06+00:00 ― 8 min lire

Apprentissage automatique Présentation du Modèle de Consistance Phasée pour la Génération d'Images par IA

Un nouveau modèle simplifie la création d'images et de vidéos AI avec une meilleure vitesse et qualité.

2025-08-05T21:57:24+00:00 ― 6 min lire

Apprentissage automatique Faire avancer la prise de décision de l'IA avec UniZero

UniZero améliore la mémoire à long terme et les capacités de prise de décision de l'IA.

2025-07-28T13:09:54+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation de MM-Instruct : Un Pas en Avant dans le Suivi d'Instructions

MM-Instruct améliore la capacité des grands modèles multimodaux à suivre des instructions diverses.

2025-07-22T17:43:48+00:00 ― 7 min lire

Calcul et langage Améliorer les modèles linguistiques avec le DPO contrôlé par étapes

Une nouvelle approche améliore le raisonnement dans les modèles de langage en générant des erreurs contrôlées.

2025-07-22T05:13:18+00:00 ― 9 min lire

Interaction homme-machine Faire avancer l'IA mobile avec le dataset AMEX

Le dataset AMEX améliore la compréhension de l'IA sur les interfaces d'applications mobiles.

2025-07-20T00:09:36+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la technologie de conversion texte-image

Un nouveau modèle révolutionne la génération d'images à partir de descriptions textuelles, améliorant divers secteurs.

2025-07-02T04:22:30+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Créer des avatars 3D réalistes avec des entrées de texte

Une nouvelle méthode génère des avatars 3D personnalisables à partir de descriptions textuelles.

2025-06-22T21:12:00+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes LLaVA-MoD : Une nouvelle approche pour des modèles multimodaux efficaces

LLaVA-MoD crée des modèles multimodaux plus petits en utilisant le savoir de leurs grands equivalents.

2025-06-20T22:35:24+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes L'avenir des moteurs de recherche multimodaux

Examiner le rôle des LMM dans la transformation des capacités de recherche avec du texte et des images.

2025-06-09T12:35:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes MedViLaM : Un nouveau modèle pour l'analyse des données médicales

MedViLaM intègre plusieurs types de données médicales pour une meilleure analyse et prise de décision.

2025-06-03T10:58:06+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes TimeWalker : Ton avatar personnel de voyage dans le temps

Vivez le vieillissement en 3D avec la technologie TimeWalker !

2025-04-20T02:07:21+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes StreamChat : La Révolution de l'Interaction Vidéo en Temps Réel

StreamChat change la façon dont on interagit avec les vidéos en streaming en temps réel.

2025-03-21T16:43:30+00:00 ― 8 min lire