Analyser les modèles existants révèle des infos sur les tendances de performance des modèles de langage à mesure qu'ils grandissent.
― 12 min lire
La science de pointe expliquée simplement
Analyser les modèles existants révèle des infos sur les tendances de performance des modèles de langage à mesure qu'ils grandissent.
― 12 min lire
Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.
― 8 min lire
Une nouvelle méthode crée de meilleures sous-titres pour les vidéos en se concentrant sur les récits et la causalité.
― 7 min lire
Un nouveau benchmark teste la capacité des LLM à trouver des vulnérabilités dans les logiciels.
― 8 min lire
Un nouveau benchmark évalue les performances des modèles multilingues dans les tâches de récupération sémantique.
― 10 min lire
Découvrez comment CMC-Bench transforme les techniques de compression d'images.
― 7 min lire
DafnyBench teste des outils de vérification de logiciels, ouvrant la voie à une programmation fiable.
― 6 min lire
Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.
― 8 min lire
Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.
― 9 min lire
Un cadre pour améliorer la sécurité des agents LLM dans différentes applications.
― 9 min lire
Un nouveau repère évalue à quel point les modèles comprennent le temps et les événements.
― 8 min lire
Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.
― 10 min lire
SEACrowd vise à améliorer la représentation de l'IA pour les langues et les cultures d'Asie du Sud-Est.
― 9 min lire
Un nouveau référentiel aide les chercheurs à améliorer les méthodes de détection de l'intégrité des images.
― 7 min lire
Une étude sur l'amélioration des capacités de résolution de problèmes des LLMs en utilisant un nouveau cadre.
― 10 min lire
Une nouvelle méthode améliore les tests pour les modèles de langage en utilisant des données réelles des utilisateurs.
― 7 min lire
De nouvelles méthodes révèlent des défis pour désapprendre des connaissances des modèles de langage.
― 8 min lire
Les modèles de langage à long contexte simplifient les tâches complexes et améliorent l'interaction avec l'IA.
― 10 min lire
Un nouveau benchmark évalue les compétences en raisonnement des modèles de langage.
― 11 min lire
Examen des avancées dans la technologie des bases de données GPU et de leurs performances.
― 12 min lire
Un nouveau critère pour l'oubli machine améliore l'évaluation et la comparaison des méthodes.
― 10 min lire
Une nouvelle méthode améliore la précision de la génération de code en utilisant des documents externes.
― 10 min lire
CEBench aide les entreprises et les chercheurs à évaluer les LLMs tout en gérant les coûts et la performance.
― 7 min lire
Les recherches mettent en lumière les capacités d'apprentissage en contexte des grands modèles de langage.
― 8 min lire
Nouveau cadre qui évalue la performance du SLAM dans des conditions difficiles.
― 8 min lire
Nouveau benchmark évalue comment les modèles vidéo-langue gèrent efficacement les inexactitudes.
― 8 min lire
Évaluer comment les LLM créent des textes persuasifs sur différents sujets.
― 7 min lire
Cette étude évalue la performance des modèles linguistiques en utilisant les tests INVALSI italiens.
― 10 min lire
Un outil de référence fait progresser les stratégies d'apprentissage actif en apprentissage automatique.
― 9 min lire
Cet article évalue l'efficacité des grands modèles de langage dans la création d'assertions matérielles.
― 9 min lire
Un nouveau système d'IA améliore l'accessibilité pour les utilisateurs malvoyants grâce à une meilleure lecture d'écran.
― 6 min lire
Un repère de paires minimales vise à améliorer la compréhension de la grammaire russe par des modèles linguistiques.
― 8 min lire
Un nouveau modèle simplifie l'analyse de données dans de vastes ensembles de données en utilisant des esquisses.
― 8 min lire
Un nouveau standard pour améliorer les méthodes d'optimisation des séquences biophysiques.
― 6 min lire
Cette étude présente une nouvelle méthode pour détecter des anomalies dans divers contextes.
― 9 min lire
Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.
― 8 min lire
Un nouveau référentiel aide à prédire le comportement des enzymes en utilisant l'apprentissage automatique.
― 9 min lire
De nouveaux modèles produisent des descriptions vidéo de haute qualité efficacement.
― 6 min lire
Un référentiel complet améliore l'évaluation des modèles vision-langage pour l'analyse d'images biologiques.
― 10 min lire
Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.
― 9 min lire