Derniers articles pour Évaluation des données

Informatique de santé Évaluation de la recherche biomédicale : collaboration entre humains et IA

Combiner des examinateurs humains avec des LLMs améliore les évaluations de la recherche biomédicale.

2025-08-06T10:09:00+00:00 ― 7 min lire

Traitement de l'image et de la vidéo Défi Grand AAPM 2023 sur l'imagerie médicale

Un défi axé sur des modèles génératifs profonds pour la génération d'images médicales réalistes.

2025-08-04T00:01:12+00:00 ― 12 min lire

Apprentissage automatique Benchmarks dynamiques pour évaluer les modèles de langage

Un nouveau système pour évaluer les modèles linguistiques en utilisant des flux de données du monde réel.

2025-08-02T01:23:42+00:00 ― 7 min lire

Calcul et langage Évaluer la connaissance de bon sens dans les modèles de langage

Une nouvelle méthode pour évaluer le raisonnement de bon sens dans les modèles d'IA à travers des tâches ouvertes.

2025-08-01T10:15:12+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la qualité des actions dans les vidéos générées par IA

Le nouveau jeu de données GAIA éclaire la qualité de l'action dans le contenu généré par l'IA.

2025-07-30T19:56:18+00:00 ― 9 min lire

Apprentissage automatique Évaluation en ligne efficace des modèles génératifs

Une nouvelle méthode pour évaluer les modèles génératifs avec une génération de données minimale.

2025-07-30T12:41:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Défier les limites des modèles de vision-langage

Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.

2025-07-29T19:42:42+00:00 ― 9 min lire

Calcul et langage Évaluation des hallucinations dans les grands modèles de langage

Nouveau jeu de données aide à évaluer la précision et la fiabilité du texte d'IA.

2025-07-29T07:12:12+00:00 ― 9 min lire

Calcul et langage RUPBench : Évaluer la robustesse des modèles de langage

Un nouveau critère évalue comment les modèles de langage gèrent les changements de texte.

2025-07-28T07:06:30+00:00 ― 8 min lire

Calcul et langage Évaluation des modèles de langage de grande taille augmentés par récupération

Un kit d'outils pour évaluer la performance des modèles augmentés par récupération dans des domaines spécifiques.

2025-07-27T18:28:06+00:00 ― 13 min lire

Vision par ordinateur et reconnaissance des formes Présentation de VideoVista : Une nouvelle référence pour le QA vidéo

VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.

2025-07-27T13:35:48+00:00 ― 8 min lire

Econométrie Estimation des effets de traitement dans des conceptions variées

Méthodes pour mesurer les effets du traitement à travers des groupes divers et des périodes de temps.

2025-07-24T23:14:12+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle approche pour évaluer les modèles de texte à image

Cet article présente une nouvelle méthode pour évaluer efficacement les modèles de texte à image.

2025-07-24T20:25:18+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des grands modèles de vision-langage avec Dysca

Dysca introduit une nouvelle façon d'évaluer la performance des LVLM en utilisant des données synthétiques.

2025-07-24T03:49:54+00:00 ― 9 min lire

Calcul et langage Évaluation de la révision des croyances dans les modèles linguistiques

Une nouvelle méthode mesure comment les modèles linguistiques adaptent leurs croyances avec de nouvelles preuves.

2025-07-22T18:07:30+00:00 ― 11 min lire

Calcul et langage Évaluer les agents IA dans la recherche biomédicale

Un nouvel étalon pour évaluer la performance des agents IA dans la littérature biomédicale et les graphes de connaissances.

2025-07-22T12:04:06+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Aborder l'équité dans les modèles d'imagerie médicale

Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.

2025-07-21T07:45:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des hallucinations dans les modèles de langage de vision médicale

Cette étude évalue comment les LVLM médicaux se débrouillent face aux hallucinations en utilisant un nouveau jeu de données.

2025-07-21T04:12:18+00:00 ― 8 min lire

Génie logiciel Améliorer la détection des vulnérabilités dans les systèmes logiciels

Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.

2025-07-20T06:36:42+00:00 ― 10 min lire

Apprentissage automatique Nouvelle méthode pour évaluer les modèles génératifs

FKEA propose une nouvelle façon d'évaluer les modèles génératifs sans avoir besoin de jeux de données de référence.

2025-07-20T04:38:12+00:00 ― 8 min lire

Calcul et langage Évaluation de la traduction automatique : Vers une évaluation au niveau des segments

Un aperçu des avantages des méthodes d'évaluation de la qualité de traduction au niveau des segments.

2025-07-19T23:14:18+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la détection d'objets en 3D pour des trajets autonomes plus sûrs

De nouvelles métriques et le module EdgeHead améliorent la détection 3D pour les véhicules autonomes.

2025-07-19T11:54:54+00:00 ― 8 min lire

Apprentissage automatique Améliorer l'évaluation des modèles de langage avec des méthodes stratifiées

Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.

2025-07-18T10:41:56+00:00 ― 9 min lire

Calcul et langage Évaluer la confiance dans le traitement de longs documents

Améliorer la façon dont les modèles traitent les preuves dans de longs documents renforce la confiance des utilisateurs.

2025-07-15T22:35:42+00:00 ― 5 min lire

Calcul et langage Traiter le biais dans les modèles de langage avec BiasAlert

BiasAlert améliore la détection de biais dans les modèles de langage pour des sorties IA plus équitables.

2025-07-13T20:41:36+00:00 ― 7 min lire

Calcul et langage Évaluer les modèles de langue : l'approche GraphEval

Une nouvelle méthode pour évaluer la précision des résultats des modèles de langage.

2025-07-13T06:36:18+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des hallucinations dans les modèles de langage visuel

Un nouveau repère met en lumière les hallucinations dans les modèles de langage visuel.

2025-07-10T21:59:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Le Rôle de la Granularité dans la Recherche Image-Texte

Cette étude met en avant l'importance de la granularité des jeux de données pour améliorer les systèmes de recherche image-texte.

2025-07-09T13:35:54+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle méthode pour évaluer la qualité des échantillons générés

Présentation d'un moyen efficace d'évaluer la qualité des échantillons générés en utilisant des scores de densité latente.

2025-07-09T12:09:00+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Nouveau benchmark améliore la compréhension vidéo-langue

Un nouveau repère améliore la compréhension des modèles sur les longues vidéos et le langage.

2025-07-09T01:29:06+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes HaloQuest : Une nouvelle approche de l'hallucination dans les VLMs

HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.

2025-07-08T23:14:48+00:00 ― 12 min lire

Calcul et langage Améliorer les benchmarks d'extraction d'informations ouvertes

Un nouveau critère vise à améliorer les évaluations des systèmes OIE pour des aperçus de performance plus précis.

2025-07-08T12:34:54+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluation avancée des modèles de langage visuel avec le benchmark VisMin

Un nouveau standard pour tester les modèles visuels-linguistiques sur des changements minimaux dans les images et les légendes.

2025-07-08T11:08:00+00:00 ― 8 min lire

Calcul et langage Améliorer la confiance dans les modèles de langue grâce à l'abstention

Cette étude met en avant la nécessité pour les LLMs de savoir quand s'abstenir.

2025-07-08T00:36:00+00:00 ― 8 min lire

Méthodologie Évaluation des prévisions probabilistes : un nouveau cadre

Les règles de score appropriées améliorent l'évaluation des prévisions probabilistes dans différents domaines.

2025-07-07T20:11:36+00:00 ― 10 min lire

Méthodologie Analyse des effets de traitement dans les essais groupés

Un cadre pour mieux estimer les effets du traitement dans des expériences randomisées par paires.

2025-07-07T12:41:00+00:00 ― 7 min lire

Recherche d'informations Évaluation des systèmes de recherche d'infos avec des annotations IA

Utiliser des marques de pertinence générées par IA pour évaluer efficacement les systèmes de recherche d'information.

2025-07-06T13:19:08+00:00 ― 10 min lire

Calcul et langage Aborder la fuite d'infos dans la vérification d'auteur

Une nouvelle méthode améliore la précision de l'évaluation dans la vérification d'auteur en réduisant les fuites de sujet.

2025-07-06T02:38:54+00:00 ― 11 min lire

Calcul et langage Évaluation des systèmes de génération augmentée par la récupération

Un nouveau cadre améliore l'évaluation des systèmes RAG dans des domaines spécialisés.

2025-07-03T13:09:36+00:00 ― 11 min lire

Calcul et langage Améliorer les méthodes d'évaluation pour la compréhension en lecture machinique

De nouvelles méthodes offrent une meilleure évaluation de la compréhension du langage dans les modèles.

2025-06-29T22:47:12+00:00 ― 8 min lire