Une nouvelle méthode pour évaluer les LLMs s'aligne avec les valeurs humaines.
― 8 min lire
La science de pointe expliquée simplement
Une nouvelle méthode pour évaluer les LLMs s'aligne avec les valeurs humaines.
― 8 min lire
Un nouvel outil pour évaluer les biais dans les grands modèles de vision-langage.
― 8 min lire
Une étude évalue comment les machines créent de la poésie variée et créative comparée à celle des humains.
― 8 min lire
Une nouvelle méthode améliore notre façon d'évaluer les contre-narrations à la haine.
― 8 min lire
InternLM-Law améliore les réponses à diverses questions juridiques chinoises grâce à une formation avancée.
― 9 min lire
Explorer comment les profils d'utilisateurs améliorent la personnalisation dans les modèles de langue.
― 8 min lire
Des recherches montrent que les modèles galèrent avec les dépendances d'étapes dans les recettes de cuisine.
― 7 min lire
Ce papier présente une méthode pour évaluer les modèles de langage à travers différents prompts.
― 8 min lire
Une nouvelle méthode aborde les différences régionales dans l'évaluation des biais de genre.
― 8 min lire
Le dataset M2Lingual améliore les capacités de suivi des instructions dans plusieurs langues.
― 7 min lire
Cet article présente une nouvelle méthode pour évaluer efficacement les modèles de texte à image.
― 8 min lire
Cette étude évalue la performance des modèles linguistiques en utilisant les tests INVALSI italiens.
― 10 min lire
RAGBench propose un dataset complet pour évaluer les systèmes de Génération Augmentée par Récupération.
― 8 min lire
Dysca introduit une nouvelle façon d'évaluer la performance des LVLM en utilisant des données synthétiques.
― 9 min lire
Un aperçu des méthodes modernes en conception d'ingénierie pour l'efficacité et la performance.
― 9 min lire
Une nouvelle approche améliore l'extraction d'événements causaux en utilisant une évaluation centrée sur l'humain.
― 7 min lire
Évaluer comment le fait de faire confiance aux experts humains affecte la précision des prédictions dans les modèles d'IA.
― 10 min lire
Présentation d'une nouvelle méthode pour de meilleures solutions dans des tâches complexes en ingénierie et en robotique.
― 7 min lire
Une étude évaluant la qualité des jeux de données pour identifier les discours de haine en ligne.
― 10 min lire
Une nouvelle méthode mesure comment les modèles linguistiques adaptent leurs croyances avec de nouvelles preuves.
― 11 min lire
Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.
― 8 min lire
GraphArena évalue la performance des LLM sur des problèmes de graphes en utilisant des données du monde réel.
― 8 min lire
Explore une méthode équitable pour partager le mérite dans les projets de groupe.
― 7 min lire
Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.
― 9 min lire
CRAB améliore les tests pour les modèles de langage dans des environnements réels.
― 8 min lire
Cet article examine l'impact des changements temporels sur les évaluations des systèmes de recherche d'information.
― 7 min lire
Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.
― 8 min lire
Nouveau dataset améliore la performance du modèle de langue arabe et favorise une communication efficace.
― 8 min lire
Étudier comment la quantification affecte les performances dans différentes langues.
― 7 min lire
Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.
― 10 min lire
Un nouveau benchmark s'attaque aux défis de la récupération de code pour les développeurs.
― 9 min lire
De nouvelles méthodes améliorent la fiabilité des textes générés par les modèles de langage.
― 5 min lire
Un outil pour identifier les réponses trompeuses des grands modèles de langages.
― 8 min lire
Découvre l'importance et les défis d'évaluer efficacement la performance des LLM.
― 7 min lire
Un aperçu des classements des modèles de fondation et de leurs problèmes d'évaluation.
― 9 min lire
L'étude révèle le biais dans les outils d'évaluation de l'IA qui favorisent les réponses plus longues.
― 6 min lire
Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.
― 9 min lire
Une nouvelle méthode pour sélectionner des langues diverses dans la recherche en traitement du langage naturel.
― 8 min lire
Un nouveau repère évalue les capacités de raisonnement temporel des grands modèles de langage.
― 6 min lire
Approche innovante pour créer des fonctions d'acquisition efficaces pour l'optimisation bayésienne.
― 7 min lire