Combiner des examinateurs humains avec des LLMs améliore les évaluations de la recherche biomédicale.
― 7 min lire
La science de pointe expliquée simplement
Combiner des examinateurs humains avec des LLMs améliore les évaluations de la recherche biomédicale.
― 7 min lire
Un défi axé sur des modèles génératifs profonds pour la génération d'images médicales réalistes.
― 12 min lire
Un nouveau système pour évaluer les modèles linguistiques en utilisant des flux de données du monde réel.
― 7 min lire
Une nouvelle méthode pour évaluer le raisonnement de bon sens dans les modèles d'IA à travers des tâches ouvertes.
― 11 min lire
Le nouveau jeu de données GAIA éclaire la qualité de l'action dans le contenu généré par l'IA.
― 9 min lire
Une nouvelle méthode pour évaluer les modèles génératifs avec une génération de données minimale.
― 7 min lire
Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.
― 9 min lire
Nouveau jeu de données aide à évaluer la précision et la fiabilité du texte d'IA.
― 9 min lire
Un nouveau critère évalue comment les modèles de langage gèrent les changements de texte.
― 8 min lire
Un kit d'outils pour évaluer la performance des modèles augmentés par récupération dans des domaines spécifiques.
― 13 min lire
VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.
― 8 min lire
Méthodes pour mesurer les effets du traitement à travers des groupes divers et des périodes de temps.
― 6 min lire
Cet article présente une nouvelle méthode pour évaluer efficacement les modèles de texte à image.
― 8 min lire
Dysca introduit une nouvelle façon d'évaluer la performance des LVLM en utilisant des données synthétiques.
― 9 min lire
Une nouvelle méthode mesure comment les modèles linguistiques adaptent leurs croyances avec de nouvelles preuves.
― 11 min lire
Un nouvel étalon pour évaluer la performance des agents IA dans la littérature biomédicale et les graphes de connaissances.
― 6 min lire
Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.
― 8 min lire
Cette étude évalue comment les LVLM médicaux se débrouillent face aux hallucinations en utilisant un nouveau jeu de données.
― 8 min lire
Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.
― 10 min lire
FKEA propose une nouvelle façon d'évaluer les modèles génératifs sans avoir besoin de jeux de données de référence.
― 8 min lire
Un aperçu des avantages des méthodes d'évaluation de la qualité de traduction au niveau des segments.
― 10 min lire
De nouvelles métriques et le module EdgeHead améliorent la détection 3D pour les véhicules autonomes.
― 8 min lire
Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.
― 9 min lire
Améliorer la façon dont les modèles traitent les preuves dans de longs documents renforce la confiance des utilisateurs.
― 5 min lire
BiasAlert améliore la détection de biais dans les modèles de langage pour des sorties IA plus équitables.
― 7 min lire
Une nouvelle méthode pour évaluer la précision des résultats des modèles de langage.
― 5 min lire
Un nouveau repère met en lumière les hallucinations dans les modèles de langage visuel.
― 7 min lire
Cette étude met en avant l'importance de la granularité des jeux de données pour améliorer les systèmes de recherche image-texte.
― 8 min lire
Présentation d'un moyen efficace d'évaluer la qualité des échantillons générés en utilisant des scores de densité latente.
― 11 min lire
Un nouveau repère améliore la compréhension des modèles sur les longues vidéos et le langage.
― 7 min lire
HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.
― 12 min lire
Un nouveau critère vise à améliorer les évaluations des systèmes OIE pour des aperçus de performance plus précis.
― 6 min lire
Un nouveau standard pour tester les modèles visuels-linguistiques sur des changements minimaux dans les images et les légendes.
― 8 min lire
Cette étude met en avant la nécessité pour les LLMs de savoir quand s'abstenir.
― 8 min lire
Les règles de score appropriées améliorent l'évaluation des prévisions probabilistes dans différents domaines.
― 10 min lire
Un cadre pour mieux estimer les effets du traitement dans des expériences randomisées par paires.
― 7 min lire
Utiliser des marques de pertinence générées par IA pour évaluer efficacement les systèmes de recherche d'information.
― 10 min lire
Une nouvelle méthode améliore la précision de l'évaluation dans la vérification d'auteur en réduisant les fuites de sujet.
― 11 min lire
Un nouveau cadre améliore l'évaluation des systèmes RAG dans des domaines spécialisés.
― 11 min lire
De nouvelles méthodes offrent une meilleure évaluation de la compréhension du langage dans les modèles.
― 8 min lire