Derniers articles pour Évaluation des données

Calcul et langage SIB-200 : Un Pas Vers une Évaluation du Langage Inclusif

Nouveau jeu de données améliore l'évaluation des modèles multilingues dans diverses langues.

2025-09-26T23:44:12+00:00 ― 9 min lire

Calcul et langage Une nouvelle façon d'évaluer les systèmes de réponse aux questions

La métrique SQuArE améliore l'évaluation des systèmes de Q&R grâce à plusieurs références de réponse.

2025-09-23T13:58:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de la segmentation sémantique faiblement supervisée pour les petits objets

De nouvelles méthodes améliorent l'évaluation des performances des petits objets en WSSS.

2025-09-22T00:11:00+00:00 ― 7 min lire

Calcul et langage Évaluer les systèmes de génération augmentée par récupération

Un nouveau cadre pour évaluer les systèmes RAG sans références humaines.

2025-09-21T17:51:48+00:00 ― 7 min lire

Calcul et langage Nouvelle méthode d'évaluation pour la qualité des réponses

Présentation d'une méthode qui mesure la qualité des réponses à différents niveaux de détail.

2025-09-18T05:04:12+00:00 ― 8 min lire

Calcul et langage Améliorer les méthodes d'évaluation des systèmes de questions-réponses

Cette étude propose de nouvelles méthodes pour évaluer les réponses dans la question-réponse automatique.

2025-09-15T03:20:12+00:00 ― 9 min lire

Intelligence artificielle Améliorer les méthodes d'évaluation des explications de l'IA

De nouvelles méthodes améliorent l'évaluation des explications des modèles d'IA.

2025-09-13T08:41:04+00:00 ― 8 min lire

Calcul et langage Avancées dans l'évaluation des modèles de langage avec WSC+

Un nouveau jeu de données et une méthode améliorent la génération de questions par les modèles de langage.

2025-09-12T20:18:00+00:00 ― 8 min lire

Calcul et langage Améliorer la vérification du raisonnement dans les modèles de langage

Nouveau jeu de données améliore la vérification des étapes de raisonnement dans les modèles d'IA.

2025-09-12T11:28:42+00:00 ― 9 min lire

Calcul et langage Évaluation des modèles de langage avec un nouveau benchmark

Cet article présente une référence pour évaluer les modèles de langage large avec des tâches complexes.

2025-09-11T04:55:54+00:00 ― 8 min lire

Calcul et langage Évaluer la richesse du vocabulaire dans ChatGPT

Une étude sur comment ChatGPT utilise des caractéristiques linguistiques et de vocabulaire.

2025-09-09T07:46:12+00:00 ― 13 min lire

Intelligence artificielle Évaluation des grands modèles de langage en cybersécurité

Un aperçu détaillé de l'évaluation de CyberMetric sur les experts en cybersécurité, qu'ils soient IA ou humains.

2025-09-08T19:39:24+00:00 ― 11 min lire

Calcul et langage Évaluation de l'édition de modèle dans de longs textes

Une nouvelle méthode évalue l'efficacité de l'édition de modèles pour générer des textes plus longs.

2025-09-08T06:21:30+00:00 ― 11 min lire

Calcul et langage Améliorer les méthodes d'évaluation des questions-réponses

Un nouveau cadre pour évaluer la justesse des réponses de l'IA avec un jugement semblable à celui des humains.

2025-09-07T13:06:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de l'oubli machine dans les modèles de diffusion

Nouveau jeu de données améliore les méthodes d'évaluation pour l'oubli machine dans la génération d'images.

2025-09-06T06:02:12+00:00 ― 7 min lire

Calcul et langage Présentation de FanOutQA : Un nouveau dataset pour répondre à des questions complexes

FanOutQA aide à évaluer les modèles de langage sur des questions multi-étapes difficiles en utilisant des données structurées.

2025-09-05T08:58:12+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes S'attaquer aux hallucinations visuelles dans les modèles d'IA

Un nouvel outil génère des instances d'hallucinations visuelles diverses pour améliorer l'exactitude de l'IA.

2025-09-04T23:45:12+00:00 ― 7 min lire

Intelligence artificielle Évaluer les hallucinations dans les grands modèles vision-langage

Cet article parle d'un nouveau cadre pour évaluer les hallucinassions dans les LVLMs.

2025-09-04T12:02:06+00:00 ― 9 min lire

Apprentissage automatique Références à vie : Une nouvelle approche pour évaluer les modèles

Une méthode pour évaluer en continu les modèles en apprentissage automatique afin d'éviter le surapprentissage.

2025-09-02T23:49:36+00:00 ― 7 min lire

Calcul et langage Améliorer la vérification des faits dans les systèmes RAG

Une nouvelle méthode améliore la vérification des faits dans les systèmes de génération augmentée par la récupération.

2025-08-31T22:19:12+00:00 ― 10 min lire

Calcul et langage Améliorer la reconnaissance d'intention dans les systèmes de conversation

Améliorer la compréhension des intentions des utilisateurs à travers la négation et l'implicature.

2025-08-31T10:04:30+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles de langue sur la reconnaissance des entités du discours

Une analyse de la compréhension des règles de reconnaissance d'entités par les modèles de langage.

2025-08-30T21:34:00+00:00 ― 8 min lire

Génie logiciel Évaluer le réalisme des scénarios de test de voitures autonomes en utilisant des LLMs

Cette recherche évalue l'utilisation des LLM pour des scénarios réalistes de voitures autonomes.

2025-08-29T14:13:48+00:00 ― 10 min lire

Calcul et langage Améliorer le NLP pour les dialectes variés

Un cadre pour améliorer la performance du NLP à travers différents dialectes de langue.

2025-08-28T20:51:00+00:00 ― 5 min lire

Calcul et langage NovelQA : Une nouvelle référence pour la compréhension de longs textes

Évaluer les LLM sur leur capacité à traiter de longs textes en littérature.

2025-08-28T03:12:24+00:00 ― 7 min lire

Apprentissage automatique Évaluation de la fiabilité des LLM dans le domaine de la biomédecine

Un nouveau cadre évalue à quel point les LLM sont fiables en tant qu'assistants biomédicaux.

2025-08-27T05:13:06+00:00 ― 6 min lire

Génie logiciel Évaluation des modèles de langage de code : Le défi de la contamination des données

Une étude met en avant l'impact de la contamination des données sur les évaluations des modèles de code.

2025-08-25T23:27:42+00:00 ― 8 min lire

Calcul et langage Évaluer les modèles de langage dans la recherche moléculaire

Un nouveau jeu de données améliore l'évaluation des connaissances moléculaires dans les modèles de langage.

2025-08-24T19:45:30+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes Transformer la compréhension d'image avec SPHINX-V

SPHINX-V améliore la capacité de l'IA à interpréter les images grâce à l'interaction des utilisateurs.

2025-08-24T07:49:48+00:00 ― 7 min lire

Calcul et langage BEAR : Un nouveau cadre pour évaluer les modèles de langage

BEAR améliore l'évaluation des connaissances relationnelles dans les modèles de langue.

2025-08-22T05:16:12+00:00 ― 10 min lire

Calcul et langage Évaluation de la cohérence paraphrastique dans les modèles de langage

Cette étude examine comment les modèles de langue gèrent différentes expressions des mêmes problèmes de raisonnement.

2025-08-18T21:28:48+00:00 ― 6 min lire

Calcul et langage Évaluation de la toxicité dans les modèles de langue multilingues

Un nouveau jeu de données évalue comment les modèles de langage gèrent le contenu nuisible à travers les cultures.

2025-08-17T13:52:48+00:00 ― 7 min lire

Calcul et langage Évaluer la précision des grands modèles de vision-langage

Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.

2025-08-17T06:46:12+00:00 ― 7 min lire

Calcul et langage Évaluation de la mémoire factuelle dans les grands modèles de langage

Une évaluation de la façon dont les LLM se souviennent des informations factuelles et des facteurs impliqués.

2025-08-16T20:45:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des modèles texte-image : une nouvelle approche

Cette étude propose des méthodes améliorées pour évaluer les modèles de texte à image.

2025-08-16T12:59:42+00:00 ― 8 min lire

Calcul et langage Avancer l'apprentissage few-shot pour les tâches en polonais

Une étude évaluant des méthodes d'apprentissage par few-shot pour la classification de la langue polonaise.

2025-08-15T22:38:36+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluer l'extraction d'infos dans des textes manuscrits

De nouvelles métriques améliorent l'évaluation des systèmes d'extraction d'informations dans les documents manuscrits.

2025-08-15T11:58:42+00:00 ― 8 min lire

Calcul et langage Présentation de WorkBench : Un nouveau jeu de données sur les tâches de bureau

WorkBench teste la capacité des agents à réaliser des tâches de bureau réalistes avec une méthode d'évaluation unique.

2025-08-14T22:09:12+00:00 ― 8 min lire

Calcul et langage Évaluer les grands modèles de langage dans un monde en constante évolution

Évaluer comment les LLM s'adaptent à de nouvelles infos et biais.

2025-08-11T02:46:36+00:00 ― 9 min lire

Intelligence artificielle Évaluer les modèles de langage avec le cadre ALI-Agent

Une nouvelle méthode pour évaluer l'alignement des modèles de langage avec les valeurs humaines.

2025-08-09T06:16:24+00:00 ― 9 min lire