MINT-1T est le plus gros dataset open-source pour entraîner des modèles multimodaux.
― 7 min lire
La science de pointe expliquée simplement
MINT-1T est le plus gros dataset open-source pour entraîner des modèles multimodaux.
― 7 min lire
xGen-MM améliore les modèles multimodaux pour un meilleur apprentissage des images et du texte.
― 8 min lire
KALE combine des images avec des légendes détaillées pour une meilleure compréhension.
― 6 min lire