Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.
― 8 min lire
La science de pointe expliquée simplement
Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.
― 8 min lire
Cet article explore des stratégies pour améliorer la généralisation des modèles et comprendre le comportement du gradient.
― 9 min lire
Un kit d'outils pour évaluer la sécurité des modèles de langage avancés.
― 7 min lire
Cet article analyse la performance des modèles ajustés par rapport à l'IA générative dans les tâches de classification de texte.
― 6 min lire
Cet article examine comment les modèles de l'espace d'état visuel gèrent les défis visuels.
― 8 min lire
Un nouveau jeu de données évalue comment les LLM raisonnent avec plusieurs images.
― 7 min lire
Enquêter sur comment les prédictions des LLM s'alignent avec les choix humains en utilisant des modèles statistiques.
― 13 min lire
Une nouvelle suite de tests aide à évaluer les raccourcis de raisonnement dans l'intelligence artificielle.
― 8 min lire
Une étude évalue les modèles de langage sur leur capacité à gérer plusieurs tâches en même temps.
― 10 min lire
Une étude met en lumière les lacunes dans les capacités de raisonnement des LLM pour résoudre des problèmes de maths.
― 9 min lire
Une nouvelle méthode pour tester la sécurité des modèles de langage et leurs compétences multilingues.
― 10 min lire
Méthodes pour identifier des caractéristiques importantes dans des environnements de données de mauvaise qualité.
― 9 min lire
De nouvelles méthodes révèlent des défis pour désapprendre des connaissances des modèles de langage.
― 8 min lire
Une étude sur les processus de prise de décision des grands modèles de langage.
― 6 min lire
Un aperçu de comment la calibration influence les prédictions et la fiabilité des modèles.
― 12 min lire
Les modèles de langage à long contexte simplifient les tâches complexes et améliorent l'interaction avec l'IA.
― 10 min lire
Une méthode pour évaluer la connaissance du modèle à travers le traitement interne.
― 9 min lire
Examiner l'impact de la contamination des données sur la performance et l'évaluation des modèles de langue.
― 7 min lire
Cette étude révèle les limites des modèles de texte à image pour gérer les chiffres.
― 7 min lire
Une nouvelle métrique améliore l'évaluation des modèles de classification de texte dans différents domaines.
― 9 min lire
Une plongée profonde sur la façon dont les modèles de vision reconnaissent et représentent plusieurs objets.
― 7 min lire
Une étude sur l'efficacité des détecteurs OOD contre les exemples adverses.
― 10 min lire
Les recherches mettent en lumière les capacités d'apprentissage en contexte des grands modèles de langage.
― 8 min lire
Une étude qui met en avant l'importance des annotations complètes pour l'évaluation de la récupération.
― 8 min lire
Un nouveau référentiel met en avant les risques de biais erronés dans les modèles de langage multimodaux.
― 9 min lire
Enquête sur les retours détaillés pour les modèles texte-image et ses implications pratiques.
― 8 min lire
Nouveau benchmark évalue comment les modèles vidéo-langue gèrent efficacement les inexactitudes.
― 8 min lire
APIGen génère des ensembles de données diversifiés et de haute qualité pour les agents d'appel de fonctions.
― 7 min lire
Une nouvelle méthode pour détecter les biais dans l'entraînement des modèles linguistiques.
― 8 min lire
Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.
― 7 min lire
Une nouvelle approche pour évaluer la précision du modèle sans étiquettes pendant les changements de données.
― 7 min lire
Aperçus sur les défis de l'apprentissage automatique pour prédire les propriétés des matériaux.
― 9 min lire
Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.
― 8 min lire
Cette étude examine comment les données visuelles et textuelles influencent la performance des modèles.
― 9 min lire
CD-T améliore la compréhension des modèles de transformateur, renforçant l'interprétation et la confiance.
― 5 min lire
Un nouveau référentiel évalue le biais de genre dans les modèles d'IA liés aux postes de travail.
― 7 min lire
Examiner les vulnérabilités des attaques par backdoor clean-label et comment les bornes de généralisation peuvent aider.
― 8 min lire
Un nouvel outil pour tester les modèles de langue dans des environnements bruyants.
― 5 min lire
Une nouvelle approche pour évaluer les modèles de ML en se concentrant sur la préparation des données.
― 11 min lire
La recherche évalue la stabilité des méthodes XAI en utilisant un ensemble de données sur le diabète.
― 8 min lire