NPHardEval4V évalue les capacités de raisonnement des modèles de langage multimodaux de grande taille.
― 10 min lire
La science de pointe expliquée simplement
NPHardEval4V évalue les capacités de raisonnement des modèles de langage multimodaux de grande taille.
― 10 min lire
Un nouveau dataset pour évaluer les compétences de planification des modèles linguistiques dans des tâches de la vie réelle.
― 9 min lire
Introduction de l'hypervolume adversarial pour mieux évaluer la performance des modèles de deep learning.
― 9 min lire
Ce boulot analyse la performance des transformateurs simplifiés dans les tâches de prévision.
― 9 min lire
Un nouveau benchmark évalue l'apprentissage continu dans les modèles de langage multimodaux.
― 8 min lire
Un aperçu du PAC-Bayes et de son impact sur la performance des modèles.
― 7 min lire
AVIBench teste les LVLMs pour s'assurer qu'ils résistent aux instructions visuelles adverses.
― 10 min lire
Cet article passe en revue les forces et les faiblesses du modèle VMamba.
― 6 min lire
Une étude comparant les explications des modèles multilingues et monolingues et leur fidélité.
― 9 min lire
Une nouvelle méthode pour évaluer la nouveauté dans les résultats de l'IA générative.
― 7 min lire
Explore différents modèles utilisés pour la classification de données et l'estimation de l'incertitude.
― 7 min lire
Un nouveau jeu de données vise à améliorer les modèles de détection de discours haineux pour la langue allemande.
― 7 min lire
Ce papier examine comment les données affectent l'évaluation des modèles de NLP.
― 7 min lire
IsoBench évalue comment les modèles gèrent le texte et les images pour identifier leurs points forts.
― 4 min lire
Apprends sur les attaques adversariales et leur impact sur les modèles de machine learning.
― 9 min lire
Une étude comparant la performance en matière de sécurité des modèles de langage populaires.
― 7 min lire
Un cadre pour évaluer comment les données d'entraînement influencent le comportement des modèles d'IA.
― 13 min lire
Un nouveau référentiel évalue la compréhension des modèles de langage sur les significations et les relations des mots.
― 7 min lire
Une méthode pour vérifier la fiabilité d'un modèle sans vraies étiquettes.
― 7 min lire
Une étude comparant les méthodes d'attribution d'instance et de neurone dans les modèles de langue.
― 9 min lire
Explorer comment le transfert d'apprentissage impacte l'efficacité des modèles dans différents contextes de données.
― 7 min lire
Présentation de la méthode FB pour une meilleure évaluation des modèles en cosmologie.
― 7 min lire
Une étude révèle des problèmes de confiance excessive dans les modèles de langage et de vision IA.
― 8 min lire
Cet article parle de l'arrêt précoce pour améliorer l'efficacité de la sélection des modèles en apprentissage automatique.
― 8 min lire
Explorer les avantages et les défis des embeddings de variables partagées en apprentissage automatique.
― 9 min lire
De nouvelles techniques améliorent la fiabilité et la simplicité des modèles de programmation génétique.
― 10 min lire
Présentation d'AnyLoss, qui transforme les métriques en fonctions de perte pour un meilleur entraînement des modèles.
― 10 min lire
Cet article parle de nouvelles méthodes pour expliquer les décisions de l'IA dans la détection d'objets.
― 8 min lire
Un aperçu de comment les exemples adversariaux défient les modèles d'IA.
― 7 min lire
Apprends des méthodes clés pour choisir les paramètres de réglage dans l'analyse de données pour de meilleures prédictions.
― 6 min lire
Un nouveau repère pour évaluer les LLM dans les tâches de cybersécurité.
― 11 min lire
Ce document propose de nouvelles méthodes pour évaluer la fragmentation de l'information dans l'apprentissage automatique.
― 10 min lire
Ce papier présente une méthode pour créer des classificateurs IA faciles à comprendre.
― 6 min lire
Cette étude examine comment les modèles préentraînés regroupent des données invisibles.
― 8 min lire
Présentation de nouvelles méthodes pour améliorer les processus d'oubli dans les modèles d'apprentissage contrastif.
― 8 min lire
Un aperçu des techniques SVM pour gérer le déséquilibre de classes en apprentissage automatique.
― 8 min lire
S'attaquer aux problèmes de généralisation OOD et de contamination des caractéristiques dans les modèles d'IA.
― 10 min lire
Cet article explore les améliorations des autoencodeurs rares et leur impact sur la compréhension du langage.
― 9 min lire
Une étude sur l'efficacité de différents modèles légers dans la classification d'images.
― 9 min lire
Présentation d'une méthode pour évaluer la résilience des modèles face aux attaques par empoisonnement de données.
― 8 min lire