De nouveaux référentiels révèlent des défis pour les MLLMs dans des tâches du monde réel avec de longs contextes.
― 10 min lire
La science de pointe expliquée simplement
De nouveaux référentiels révèlent des défis pour les MLLMs dans des tâches du monde réel avec de longs contextes.
― 10 min lire
Cet article explore les biais dans les modèles de génération de code à travers différentes langues.
― 10 min lire
Un aperçu des hallucinations de code dans les LLM et leur impact sur le développement logiciel.
― 9 min lire
Wake Vision améliore la détection de personnes pour TinyML avec un énorme jeu de données.
― 9 min lire
Ce papier parle du besoin d'explicabilité dans les modèles de génération de texte par IA.
― 8 min lire
Une nouvelle référence évalue la toxicité dans les grands modèles de langage à travers différentes langues.
― 10 min lire
Apprends comment la dominance stochastique d'ordre deux peut améliorer ta stratégie d'investissement.
― 7 min lire
Un nouveau référentiel évalue les capacités des LLM dans les processus de modélisation mathématique.
― 6 min lire
Explorer comment les GPU améliorent l'efficacité des algorithmes de Différentielle Évolution.
― 6 min lire
Nouvelle référence pour améliorer la compréhension du texte et des images par l'IA.
― 9 min lire
WeiPer améliore la détection des distributions hors normes dans les modèles de machine learning en ajustant les poids.
― 10 min lire
Cette étude mesure la performance des LLM dans des dialogues mathématiques complexes.
― 10 min lire
LinkLogic offre clarté et fiabilité pour la prédiction de liens dans les graphes de connaissances.
― 8 min lire
De nouvelles méthodes et repères visent à simplifier la formalisation des mathématiques avec Lean 4.
― 8 min lire
Des tests récents montrent que les LLM ont des faiblesses en raisonnement simple malgré leurs bons scores aux benchmarks.
― 6 min lire
Un nouveau système pour évaluer les modèles linguistiques en utilisant des flux de données du monde réel.
― 7 min lire
Un nouveau benchmark aide à améliorer la performance des GNN face aux problèmes de bruit d'étiquettes.
― 10 min lire
Bench2Drive propose une méthode d'évaluation équitable pour les technologies de conduite autonome.
― 8 min lire
De nouvelles méthodes améliorent la performance des modèles de langage sur des tâches de raisonnement complexe.
― 9 min lire
Une étude présente un nouveau critère pour évaluer la performance des prompts dans la création et la récupération d'images.
― 15 min lire
Analyser les modèles existants révèle des infos sur les tendances de performance des modèles de langage à mesure qu'ils grandissent.
― 12 min lire
Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.
― 8 min lire
Une nouvelle méthode crée de meilleures sous-titres pour les vidéos en se concentrant sur les récits et la causalité.
― 7 min lire
Un nouveau benchmark teste la capacité des LLM à trouver des vulnérabilités dans les logiciels.
― 8 min lire
Un nouveau benchmark évalue les performances des modèles multilingues dans les tâches de récupération sémantique.
― 10 min lire
Découvrez comment CMC-Bench transforme les techniques de compression d'images.
― 7 min lire
DafnyBench teste des outils de vérification de logiciels, ouvrant la voie à une programmation fiable.
― 6 min lire
Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.
― 8 min lire
Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.
― 9 min lire
Un cadre pour améliorer la sécurité des agents LLM dans différentes applications.
― 9 min lire
Un nouveau repère évalue à quel point les modèles comprennent le temps et les événements.
― 8 min lire
Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.
― 10 min lire
SEACrowd vise à améliorer la représentation de l'IA pour les langues et les cultures d'Asie du Sud-Est.
― 9 min lire
Un nouveau référentiel aide les chercheurs à améliorer les méthodes de détection de l'intégrité des images.
― 7 min lire
Une étude sur l'amélioration des capacités de résolution de problèmes des LLMs en utilisant un nouveau cadre.
― 10 min lire
Une nouvelle méthode améliore les tests pour les modèles de langage en utilisant des données réelles des utilisateurs.
― 7 min lire
De nouvelles méthodes révèlent des défis pour désapprendre des connaissances des modèles de langage.
― 8 min lire
Les modèles de langage à long contexte simplifient les tâches complexes et améliorent l'interaction avec l'IA.
― 10 min lire
Un nouveau benchmark évalue les compétences en raisonnement des modèles de langage.
― 11 min lire
Examen des avancées dans la technologie des bases de données GPU et de leurs performances.
― 12 min lire