Nouvelle référence pour améliorer la compréhension du texte et des images par l'IA.
― 9 min lire
La science de pointe expliquée simplement
Nouvelle référence pour améliorer la compréhension du texte et des images par l'IA.
― 9 min lire
WeiPer améliore la détection des distributions hors normes dans les modèles de machine learning en ajustant les poids.
― 10 min lire
Cette étude mesure la performance des LLM dans des dialogues mathématiques complexes.
― 10 min lire
LinkLogic offre clarté et fiabilité pour la prédiction de liens dans les graphes de connaissances.
― 8 min lire
De nouvelles méthodes et repères visent à simplifier la formalisation des mathématiques avec Lean 4.
― 8 min lire
Des tests récents montrent que les LLM ont des faiblesses en raisonnement simple malgré leurs bons scores aux benchmarks.
― 6 min lire
Un nouveau système pour évaluer les modèles linguistiques en utilisant des flux de données du monde réel.
― 7 min lire
Un nouveau benchmark aide à améliorer la performance des GNN face aux problèmes de bruit d'étiquettes.
― 10 min lire
Bench2Drive propose une méthode d'évaluation équitable pour les technologies de conduite autonome.
― 8 min lire
De nouvelles méthodes améliorent la performance des modèles de langage sur des tâches de raisonnement complexe.
― 9 min lire
Une étude présente un nouveau critère pour évaluer la performance des prompts dans la création et la récupération d'images.
― 15 min lire
Analyser les modèles existants révèle des infos sur les tendances de performance des modèles de langage à mesure qu'ils grandissent.
― 12 min lire
Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.
― 8 min lire
Une nouvelle méthode crée de meilleures sous-titres pour les vidéos en se concentrant sur les récits et la causalité.
― 7 min lire
Un nouveau benchmark teste la capacité des LLM à trouver des vulnérabilités dans les logiciels.
― 8 min lire
Un nouveau benchmark évalue les performances des modèles multilingues dans les tâches de récupération sémantique.
― 10 min lire
Découvrez comment CMC-Bench transforme les techniques de compression d'images.
― 7 min lire
DafnyBench teste des outils de vérification de logiciels, ouvrant la voie à une programmation fiable.
― 6 min lire
Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.
― 8 min lire
Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.
― 9 min lire
Un cadre pour améliorer la sécurité des agents LLM dans différentes applications.
― 9 min lire
Un nouveau repère évalue à quel point les modèles comprennent le temps et les événements.
― 8 min lire
Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.
― 10 min lire
SEACrowd vise à améliorer la représentation de l'IA pour les langues et les cultures d'Asie du Sud-Est.
― 9 min lire
Un nouveau référentiel aide les chercheurs à améliorer les méthodes de détection de l'intégrité des images.
― 7 min lire
Une étude sur l'amélioration des capacités de résolution de problèmes des LLMs en utilisant un nouveau cadre.
― 10 min lire
Une nouvelle méthode améliore les tests pour les modèles de langage en utilisant des données réelles des utilisateurs.
― 7 min lire
De nouvelles méthodes révèlent des défis pour désapprendre des connaissances des modèles de langage.
― 8 min lire
Les modèles de langage à long contexte simplifient les tâches complexes et améliorent l'interaction avec l'IA.
― 10 min lire
Un nouveau benchmark évalue les compétences en raisonnement des modèles de langage.
― 11 min lire
Examen des avancées dans la technologie des bases de données GPU et de leurs performances.
― 12 min lire
Un nouveau critère pour l'oubli machine améliore l'évaluation et la comparaison des méthodes.
― 10 min lire
Une nouvelle méthode améliore la précision de la génération de code en utilisant des documents externes.
― 10 min lire
CEBench aide les entreprises et les chercheurs à évaluer les LLMs tout en gérant les coûts et la performance.
― 7 min lire
Les recherches mettent en lumière les capacités d'apprentissage en contexte des grands modèles de langage.
― 8 min lire
Nouveau cadre qui évalue la performance du SLAM dans des conditions difficiles.
― 8 min lire
Nouveau benchmark évalue comment les modèles vidéo-langue gèrent efficacement les inexactitudes.
― 8 min lire
Évaluer comment les LLM créent des textes persuasifs sur différents sujets.
― 7 min lire
Cette étude évalue la performance des modèles linguistiques en utilisant les tests INVALSI italiens.
― 10 min lire
Un outil de référence fait progresser les stratégies d'apprentissage actif en apprentissage automatique.
― 9 min lire