Derniers articles pour Évaluation

Calcul et langage Évaluation de l'IA médicale : un nouveau standard pour les Med-MLLMs

Ce benchmark évalue la performance des modèles de language médical dans le domaine de la santé.

2025-09-07T01:47:12+00:00 ― 10 min lire

Calcul et langage Évaluer le raisonnement dans les grands modèles de langage

Un nouveau cadre évalue comment les LLMs raisonnent pour répondre à des questions compliquées.

2025-09-07T00:51:54+00:00 ― 6 min lire

Calcul et langage Améliorer les modèles de langue avec des chaînes d'instructions

Cet article parle d'une méthode pour améliorer les modèles de langue en utilisant des instructions structurées.

2025-09-06T20:15:24+00:00 ― 7 min lire

Physique atmosphérique et océanique S'attaquer à la turbulence optique avec otbench

Un nouvel outil aide les chercheurs à modéliser la turbulence optique de manière efficace.

2025-09-06T15:31:24+00:00 ― 7 min lire

Apprentissage automatique Comprendre l'attribution des données avec DualView

Explore comment DualView améliore l'attribution des données dans les modèles d'apprentissage automatique.

2025-09-06T11:41:54+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de l'oubli machine dans les modèles de diffusion

Nouveau jeu de données améliore les méthodes d'évaluation pour l'oubli machine dans la génération d'images.

2025-09-06T06:02:12+00:00 ― 7 min lire

Calcul et langage L'importance de la simplification du texte pour tous les lecteurs

La simplification du texte aide à améliorer l'accès à l'information pour différents lecteurs.

2025-09-06T01:02:00+00:00 ― 7 min lire

Bibliothèques numériques Le Rôle des Revues de Littérature dans la Recherche PAMI

Examiner l'importance et les défis des revues de littérature en analyse de motifs et en intelligence machine.

2025-09-05T22:55:36+00:00 ― 12 min lire

Calcul et langage Élargir les taxonomies avec des grands modèles de langage

Automatiser l'expansion de la taxonomie en utilisant des modèles de langage avancés pour une meilleure organisation des connaissances.

2025-09-05T10:25:06+00:00 ― 7 min lire

Calcul et langage Agents de Probing Meta : Une nouvelle façon d'évaluer les LLMs

On te présente une nouvelle approche pour évaluer efficacement les gros modèles de langage.

2025-09-05T09:14:00+00:00 ― 8 min lire

Calcul et langage Extraire des structures de documents courantes pour mieux comprendre

Une nouvelle méthode identifie les mises en page typiques de documents dans différents domaines et langues.

2025-09-05T08:34:30+00:00 ― 11 min lire

Communication scientifique et éducation Améliorer la communication scientifique au NIH

Une enquête révèle des infos sur les pratiques de communication scientifique parmi le personnel des NIH.

2025-09-05T01:49:56+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Évaluer les modèles vision-langage : Le rôle de l'incertitude

Cette étude met en avant l'importance de l'incertitude dans l'évaluation des Modèles Vision-Langage.

2025-09-05T01:43:42+00:00 ― 9 min lire

Calcul et langage KIEval : Une nouvelle façon d'évaluer les modèles de langue

KIEval propose une évaluation interactive pour gérer la contamination des données dans les modèles de langage.

2025-09-05T00:16:48+00:00 ― 8 min lire

Intelligence artificielle Évaluer les hallucinations dans les grands modèles vision-langage

Cet article parle d'un nouveau cadre pour évaluer les hallucinassions dans les LVLMs.

2025-09-04T12:02:06+00:00 ― 9 min lire

Calcul et langage Présentation de SportQA : Une nouvelle référence pour la connaissance du sport dans les modèles de langue

SportQA évalue la compréhension des modèles de langage sur le sport avec plus de 70 000 questions.

2025-09-04T11:54:12+00:00 ― 10 min lire

Calcul et langage Traiter le biais de probabilité dans les modèles de langage

La recherche met en avant le biais dans les évaluations des modèles de langage et propose des méthodes pour améliorer ça.

2025-09-04T11:38:24+00:00 ― 7 min lire

Calcul et langage Réévaluation des évaluations des modèles de langage

La recherche remet en question les méthodes traditionnelles d'évaluation des valeurs et opinions des modèles de langage.

2025-09-03T21:41:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes OpenMEDLab : Une plateforme pour les ressources en IA médicale

OpenMEDLab améliore l'accès aux outils et ressources d'IA médicale pour un meilleur système de santé.

2025-09-03T20:06:12+00:00 ― 8 min lire

Ordinateurs et société Présentation de SyllabusQA : un nouveau dataset pour la logistique des cours

SyllabusQA propose des insights pour répondre automatiquement aux questions dans l'éducation.

2025-09-02T06:34:42+00:00 ― 11 min lire

Calcul et langage Améliorer l'évaluation de la correction des erreurs grammaticales

Nouveau jeu de données améliore l'évaluation des systèmes de correction des erreurs grammaticales.

2025-09-01T04:22:36+00:00 ― 8 min lire

Calcul et langage Évaluation des compétences de simplification de phrases de GPT-4

Une étude sur l'efficacité de GPT-4 pour simplifier des phrases.

2025-08-31T16:31:36+00:00 ― 7 min lire

Calcul et langage Évaluer les outils de traitement du langage pour de meilleures performances

Une nouvelle méthode pour évaluer les outils de traitement du langage montre des signes d'amélioration.

2025-08-31T11:31:24+00:00 ― 7 min lire

Calcul et langage Améliorer la génération de messages de commit avec CommitBench

Un nouveau jeu de données vise à améliorer la qualité des messages de commit automatisés pour les développeurs.

2025-08-31T04:32:42+00:00 ― 12 min lire

Calcul et langage Améliorer les compétences sociales des agents linguistiques

Une nouvelle méthode améliore les compétences en communication des agents linguistiques.

2025-08-29T19:45:36+00:00 ― 8 min lire

Calcul et langage Évaluation des biais dans les modèles de langage : Une nouvelle approche

Évaluer comment les biais dans les modèles de langage affectent les applications dans le monde réel.

2025-08-29T12:22:36+00:00 ― 7 min lire

Calcul et langage Faire avancer les modèles multimodaux avec X-LLaVA

X-LLaVA améliore les capacités multilingues pour répondre à des questions visuelles.

2025-08-28T16:46:06+00:00 ― 9 min lire

Calcul et langage ChartThinker : Améliorer la synthèse automatique des graphiques

Découvre comment ChartThinker améliore les résumés de graphiques pour une meilleure compréhension.

2025-08-28T14:16:00+00:00 ― 8 min lire

Calcul et langage NovelQA : Une nouvelle référence pour la compréhension de longs textes

Évaluer les LLM sur leur capacité à traiter de longs textes en littérature.

2025-08-28T03:12:24+00:00 ― 7 min lire

Calcul et langage Évaluer les modèles de langage avec TinyBenchmarks

Une nouvelle méthode pour évaluer les grands modèles de langage avec moins d'exemples.

2025-08-28T01:19:48+00:00 ― 8 min lire

Bases de données Progrès dans l'évaluation des programmes Datalog

Améliorer l'efficacité dans Datalog grâce aux sémirings et aux techniques de grounding.

2025-08-27T18:07:18+00:00 ― 7 min lire

Recherche d'informations Améliorer la récupération d'infos grâce au suivi d'instructions

Un nouveau jeu de données aide les modèles IR à s'adapter à des instructions complexes pour de meilleures performances.

2025-08-26T18:49:00+00:00 ― 3 min lire

Calcul et langage Évaluer la qualité des arguments avec des modèles de langage

Découvre comment les modèles de langage peuvent améliorer notre compréhension de la qualité des arguments.

2025-08-26T06:02:42+00:00 ― 10 min lire

Recherche d'informations Défis dans l'évaluation des systèmes de recherche d'informations juridiques

Explorer les complexités de l'évaluation des systèmes de récupération d'informations juridiques et de leur efficacité.

2025-08-25T05:09:36+00:00 ― 9 min lire

Calcul et langage Présentation de TriviaHG : un nouveau jeu de données pour la génération d'indices

TriviaHG propose des indices pour les questions, ce qui pousse à réfléchir plus profondément et à apprendre.

2025-08-24T23:14:06+00:00 ― 7 min lire

Calcul et langage Évaluer les modèles de langage dans la recherche moléculaire

Un nouveau jeu de données améliore l'évaluation des connaissances moléculaires dans les modèles de langage.

2025-08-24T19:45:30+00:00 ― 10 min lire

Neurosciences Comprendre les processus de prise de décision dans le cerveau

Cette étude explore comment nos cerveaux évaluent des choix et prennent des décisions.

2025-08-23T09:22:44+00:00 ― 8 min lire

Recherche d'informations Un cadre clair pour évaluer les systèmes de recommandation

Ce guide aide à simplifier l'évaluation des systèmes de recommandation pour une meilleure expérience utilisateur.

2025-08-23T02:20:12+00:00 ― 9 min lire

Calcul et langage Améliorer la résumation de scénarios de films avec des scènes marquantes

Ce travail se concentre sur l'identification des scènes importantes pour améliorer les résumés de scénarios de films.

2025-08-22T12:54:24+00:00 ― 8 min lire

Apprentissage automatique La méthode Cram : Une nouvelle approche de l'apprentissage des données

Une méthode pour apprendre et évaluer des politiques en même temps en utilisant toutes les données disponibles.

2025-08-22T09:18:56+00:00 ― 8 min lire