Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.
― 8 min lire
La science de pointe expliquée simplement
Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.
― 8 min lire
GraphArena évalue la performance des LLM sur des problèmes de graphes en utilisant des données du monde réel.
― 8 min lire
Explore une méthode équitable pour partager le mérite dans les projets de groupe.
― 7 min lire
Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.
― 9 min lire
CRAB améliore les tests pour les modèles de langage dans des environnements réels.
― 8 min lire
Cet article examine l'impact des changements temporels sur les évaluations des systèmes de recherche d'information.
― 7 min lire
Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.
― 8 min lire
Nouveau dataset améliore la performance du modèle de langue arabe et favorise une communication efficace.
― 8 min lire
Étudier comment la quantification affecte les performances dans différentes langues.
― 7 min lire
Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.
― 10 min lire
Un nouveau benchmark s'attaque aux défis de la récupération de code pour les développeurs.
― 9 min lire
De nouvelles méthodes améliorent la fiabilité des textes générés par les modèles de langage.
― 5 min lire
Un outil pour identifier les réponses trompeuses des grands modèles de langages.
― 8 min lire
Découvre l'importance et les défis d'évaluer efficacement la performance des LLM.
― 7 min lire
Un aperçu des classements des modèles de fondation et de leurs problèmes d'évaluation.
― 9 min lire
L'étude révèle le biais dans les outils d'évaluation de l'IA qui favorisent les réponses plus longues.
― 6 min lire
Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.
― 9 min lire
Une nouvelle méthode pour sélectionner des langues diverses dans la recherche en traitement du langage naturel.
― 8 min lire
Un nouveau repère évalue les capacités de raisonnement temporel des grands modèles de langage.
― 6 min lire
Approche innovante pour créer des fonctions d'acquisition efficaces pour l'optimisation bayésienne.
― 7 min lire
Un nouveau jeu de données améliore la précision dans l'évaluation des résumés d'histoires générés par des modèles de langage.
― 6 min lire
Une nouvelle méthode pour évaluer les agents d'analyse de données afin d'obtenir de meilleures idées pour les affaires.
― 7 min lire
Un défi pour améliorer la compréhension des interactions humaines par les robots.
― 8 min lire
Un nouveau cadre vise à automatiser les revues de papiers pour obtenir des retours de meilleure qualité.
― 9 min lire
Présentation de DictaLM 2.0 et DictaLM 2.0-Instruct pour une meilleure traitement de la langue hébraïque.
― 8 min lire
Cette étude examine à quel point les modèles représentent bien les cultures différentes.
― 11 min lire
Un projet axé sur l'amélioration de la génération d'histoires en arabe en utilisant des modèles avancés.
― 9 min lire
Une nouvelle approche pour évaluer les grands modèles de langage afin d'obtenir de meilleures idées sur leurs performances.
― 6 min lire
La recherche présente de nouvelles méthodes pour évaluer les systèmes de reconnaissance vocale en polonais.
― 8 min lire
Découvrez comment les données synthétiques aident les détaillants à protéger la vie privée des clients tout en obtenant des insights.
― 9 min lire
DocBench évalue des systèmes basés sur des LLM pour lire et répondre à différents formats de documents.
― 5 min lire
Un cadre pour évaluer les capacités des LLM dans les tâches liées aux données avec des interprètes de code.
― 6 min lire
Examiner l'impact des LLM sur les stéréotypes sociaux et comment améliorer les résultats.
― 7 min lire
Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.
― 8 min lire
Analyser l'importance et les difficultés d'évaluer les modèles d'IA multimodaux.
― 8 min lire
Un nouveau jeu de données pour améliorer la performance des réponses aux questions avec de longues réponses rédigées par des humains.
― 8 min lire
Les modèles Phi-3 se concentrent sur la sécurité et l'alignement avec les valeurs humaines.
― 8 min lire
Examiner les problèmes avec les grands modèles de langage pour prédire les éléments manquants d'une liste.
― 9 min lire
Une étude comparant les modèles d'IA et les évaluations humaines des résumés scientifiques.
― 7 min lire
Un nouveau benchmark évalue les modèles de langage sur des défis de codage scientifique dans plusieurs domaines.
― 7 min lire