Jan Kautz

SpatialRGPT améliore la compréhension de l'agencement des objets dans les Modèles de Langage Visuel.

2025-08-03T05:10:36+00:00 ― 9 min lire

De nouveaux modèles adaptables peuvent répondre à des besoins variés sans avoir besoin de se requalifier.

2025-07-31T06:44:06+00:00 ― 10 min lire

MambaVision combine Mamba et Transformers pour une meilleure reconnaissance d'image.

2025-07-16T02:56:24+00:00 ― 6 min lire

Cette étude explore des méthodes pour créer des modèles de langage plus petits de manière efficace et abordable.

2025-07-10T13:17:54+00:00 ― 7 min lire

Cet article analyse la performance des modèles sur différentes tâches et ensembles de données.

2025-07-08T02:42:24+00:00 ― 6 min lire

Une nouvelle méthode améliore la qualité des données pour les modèles de langage visuel en utilisant des techniques d'augmentation.

2025-07-07T17:53:06+00:00 ― 9 min lire

Une méthode pour réduire les modèles de langage sans perdre en efficacité grâce à l'élagage et à la distillation.

2025-06-24T13:29:24+00:00 ― 6 min lire

Une nouvelle méthode améliore la performance des LLM tout en réduisant la complexité.

2025-06-06T07:41:54+00:00 ― 8 min lire

NaVILA aide les robots à naviguer en utilisant le langage et la vision.

2025-04-12T05:32:06+00:00 ― 7 min lire

Un aperçu de Gated DeltaNet et son impact sur les modèles de langue.

2025-03-28T17:15:00+00:00 ― 7 min lire

Découvrez des techniques émergentes qui révolutionnent la façon dont les machines voient et comprennent les images.

2025-03-25T13:00:45+00:00 ― 8 min lire

StreamChat change la façon dont on interagit avec les vidéos en streaming en temps réel.

2025-03-21T16:43:30+00:00 ― 8 min lire