SpatialRGPT améliore la compréhension de l'agencement des objets dans les Modèles de Langage Visuel.
― 9 min lire
La science de pointe expliquée simplement
SpatialRGPT améliore la compréhension de l'agencement des objets dans les Modèles de Langage Visuel.
― 9 min lire
De nouveaux modèles adaptables peuvent répondre à des besoins variés sans avoir besoin de se requalifier.
― 10 min lire
Une nouvelle méthode améliore la qualité des données pour les modèles de langage visuel en utilisant des techniques d'augmentation.
― 9 min lire
VILA-U intègre des tâches vidéo, image et langue dans un seul cadre.
― 8 min lire
Une nouvelle méthode améliore la performance des LLM tout en réduisant la complexité.
― 8 min lire
NaVILA aide les robots à naviguer en utilisant le langage et la vision.
― 7 min lire