Un nouveau jeu de données améliore l'évaluation des connaissances moléculaires dans les modèles de langage.
― 10 min lire
La science de pointe expliquée simplement
Un nouveau jeu de données améliore l'évaluation des connaissances moléculaires dans les modèles de langage.
― 10 min lire
SPHINX-V améliore la capacité de l'IA à interpréter les images grâce à l'interaction des utilisateurs.
― 7 min lire
BEAR améliore l'évaluation des connaissances relationnelles dans les modèles de langue.
― 10 min lire
Cette étude examine comment les modèles de langue gèrent différentes expressions des mêmes problèmes de raisonnement.
― 6 min lire
Un nouveau jeu de données évalue comment les modèles de langage gèrent le contenu nuisible à travers les cultures.
― 7 min lire
Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.
― 7 min lire
Une évaluation de la façon dont les LLM se souviennent des informations factuelles et des facteurs impliqués.
― 7 min lire
Cette étude propose des méthodes améliorées pour évaluer les modèles de texte à image.
― 8 min lire
Une étude évaluant des méthodes d'apprentissage par few-shot pour la classification de la langue polonaise.
― 6 min lire
De nouvelles métriques améliorent l'évaluation des systèmes d'extraction d'informations dans les documents manuscrits.
― 8 min lire
WorkBench teste la capacité des agents à réaliser des tâches de bureau réalistes avec une méthode d'évaluation unique.
― 8 min lire
Évaluer comment les LLM s'adaptent à de nouvelles infos et biais.
― 9 min lire
Une nouvelle méthode pour évaluer l'alignement des modèles de langage avec les valeurs humaines.
― 9 min lire
Combiner des examinateurs humains avec des LLMs améliore les évaluations de la recherche biomédicale.
― 7 min lire
Un défi axé sur des modèles génératifs profonds pour la génération d'images médicales réalistes.
― 12 min lire
Un nouveau système pour évaluer les modèles linguistiques en utilisant des flux de données du monde réel.
― 7 min lire
Une nouvelle méthode pour évaluer le raisonnement de bon sens dans les modèles d'IA à travers des tâches ouvertes.
― 11 min lire
Le nouveau jeu de données GAIA éclaire la qualité de l'action dans le contenu généré par l'IA.
― 9 min lire
Une nouvelle méthode pour évaluer les modèles génératifs avec une génération de données minimale.
― 7 min lire
Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.
― 9 min lire
Nouveau jeu de données aide à évaluer la précision et la fiabilité du texte d'IA.
― 9 min lire
Un nouveau critère évalue comment les modèles de langage gèrent les changements de texte.
― 8 min lire
Un kit d'outils pour évaluer la performance des modèles augmentés par récupération dans des domaines spécifiques.
― 13 min lire
VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.
― 8 min lire
Méthodes pour mesurer les effets du traitement à travers des groupes divers et des périodes de temps.
― 6 min lire
Cet article présente une nouvelle méthode pour évaluer efficacement les modèles de texte à image.
― 8 min lire
Dysca introduit une nouvelle façon d'évaluer la performance des LVLM en utilisant des données synthétiques.
― 9 min lire
Une nouvelle méthode mesure comment les modèles linguistiques adaptent leurs croyances avec de nouvelles preuves.
― 11 min lire
Un nouvel étalon pour évaluer la performance des agents IA dans la littérature biomédicale et les graphes de connaissances.
― 6 min lire
Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.
― 8 min lire
Cette étude évalue comment les LVLM médicaux se débrouillent face aux hallucinations en utilisant un nouveau jeu de données.
― 8 min lire
Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.
― 10 min lire
FKEA propose une nouvelle façon d'évaluer les modèles génératifs sans avoir besoin de jeux de données de référence.
― 8 min lire
Un aperçu des avantages des méthodes d'évaluation de la qualité de traduction au niveau des segments.
― 10 min lire
De nouvelles métriques et le module EdgeHead améliorent la détection 3D pour les véhicules autonomes.
― 8 min lire
Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.
― 9 min lire
Améliorer la façon dont les modèles traitent les preuves dans de longs documents renforce la confiance des utilisateurs.
― 5 min lire
BiasAlert améliore la détection de biais dans les modèles de langage pour des sorties IA plus équitables.
― 7 min lire
Une nouvelle méthode pour évaluer la précision des résultats des modèles de langage.
― 5 min lire
Un nouveau repère met en lumière les hallucinations dans les modèles de langage visuel.
― 7 min lire