Derniers articles pour Méthodes d'évaluation

Physique et société Une approche équitable pour classer les choix

Apprends à classer les avis et les choix de manière juste en utilisant des principes statistiques.

2025-08-13T13:14:24+00:00 ― 7 min lire

Informatique de santé Évaluation de la génération de langage naturel en médecine

Une étude sur l'évaluation des systèmes NLG pour des diagnostics médicaux précis.

2025-08-12T17:03:30+00:00 ― 8 min lire

Calcul et langage Évaluer la compréhension du monde par l'IA

Un aperçu de comment les modèles d'IA comprennent les connaissances essentielles du monde.

2025-08-10T22:41:42+00:00 ― 7 min lire

Calcul et langage Évaluation de la NLG avec le cadre AdvEval

AdvEval met en lumière les faiblesses des métriques d'évaluation de la génération de langage naturel.

2025-08-08T07:29:42+00:00 ― 8 min lire

Calcul et langage Améliorer l'évaluation humaine des modèles de langue

Un nouveau cadre pour évaluer les grands modèles de langage avec l'insight humain.

2025-08-06T00:03:48+00:00 ― 10 min lire

Intelligence artificielle Une nouvelle approche de la prise de décision avec une logique à sept valeurs

Apprends comment la logique à sept valeurs améliore la prise de décision avec plusieurs critères.

2025-08-04T05:00:30+00:00 ― 7 min lire

Intelligence artificielle Évaluer le favoritisme dans les métriques de l'IA générative

Une nouvelle approche pour évaluer les biais dans les métriques d'évaluation automatisées de l'IA.

2025-08-02T22:04:00+00:00 ― 8 min lire

Calcul et langage Avancées dans la génération de texte contrôlable avec les LLMs

Évaluer des méthodes pour un contrôle précis des caractéristiques du texte dans les sorties des LLM.

2025-08-01T15:23:18+00:00 ― 19 min lire

Calcul et langage Évaluer les modèles de langue à travers la collaboration

Un nouveau cadre évalue les modèles de langage sur l'intelligence émotionnelle et la créativité.

2025-07-30T00:50:48+00:00 ― 9 min lire

Apprentissage automatique Évaluation des sources d'étiquetage avec les valeurs WeShap

WeShap améliore la qualité de l'étiquetage des données pour les modèles d'apprentissage automatique.

2025-07-28T06:50:42+00:00 ― 9 min lire

Intelligence artificielle Cadre STAR : Améliorer le Red Teaming pour la sécurité de l'IA

Une nouvelle approche pour améliorer les évaluations de sécurité des systèmes d'IA en utilisant des perspectives diverses.

2025-07-27T19:47:06+00:00 ― 6 min lire

Calcul et langage Une nouvelle façon d'évaluer les grands modèles de langue

La taxonomie de l'invite hiérarchique améliore les méthodes d'évaluation pour les modèles de langage.

2025-07-27T05:10:12+00:00 ― 8 min lire

Calcul et langage Évaluation des modèles linguistiques : une nouvelle approche

Une étude sur l'utilisation des LLMs pour juger d'autres LLMs et ses implications.

2025-07-27T04:30:42+00:00 ― 9 min lire

Calcul et langage Nouveau standard pour évaluer les LLM dans la propriété intellectuelle

IPEval évalue la compréhension des concepts de propriété intellectuelle par les modèles de langage.

2025-07-27T01:29:00+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles de langue multilingues dans les langues indiques

Une étude complète sur la performance des modèles linguistiques dans 10 langues indiennes.

2025-07-25T17:37:12+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes ChronoMagic-Bench : Avancement de l'évaluation des vidéos en accéléré

De nouvelles références améliorent la manière dont nous évaluons les vidéos en timelapse générées.

2025-07-24T00:40:18+00:00 ― 9 min lire

Calcul et langage Évaluation des méthodes de résumé de texte avec les LLMs

Cet article examine des méthodes pour évaluer des résumés de texte en utilisant de grands modèles de langage.

2025-07-22T04:41:42+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de la génération vidéo : Le protocole DEVIL

Une nouvelle méthode pour évaluer les modèles texte-vidéo se concentre sur la dynamique.

2025-07-21T10:07:48+00:00 ― 9 min lire

Calcul et langage M5 Benchmark : Évaluation des modèles multimodaux à travers les cultures

Un nouveau critère évalue la performance des modèles de langue à l'échelle mondiale.

2025-07-19T04:40:24+00:00 ― 9 min lire

Calcul et langage Évaluation des histoires visuelles générées par machine

Une nouvelle méthode pour évaluer la qualité des histoires racontées par les machines est présentée.

2025-07-18T16:09:54+00:00 ― 9 min lire

Intelligence artificielle Faire avancer les agents interactifs avec un langage ancré

Une étude sur comment améliorer la capacité de l'IA à suivre des instructions en langage naturel.

2025-07-15T11:00:30+00:00 ― 10 min lire

Intelligence artificielle Évaluer les expériences XAI avec l'échelle XEQ

Une nouvelle échelle aide à mesurer les expériences des utilisateurs dans les systèmes d'IA explicables.

2025-07-13T03:50:24+00:00 ― 7 min lire

Intelligence artificielle Évaluer les modèles de langage dans le codage scientifique

Un nouveau benchmark évalue les modèles de langage sur des défis de codage scientifique dans plusieurs domaines.

2025-07-10T17:22:48+00:00 ― 7 min lire

Apprentissage automatique Nouveau cadre pour évaluer la généralisation des modèles d'IA

Présentation d'une méthode pour évaluer les modèles d'IA sur des données jamais vues de manière plus efficace.

2025-07-09T06:05:36+00:00 ― 8 min lire

Calcul et langage Évaluer les modèles de langue : un nouvel outil

Un kit d'outils conçu pour évaluer au mieux les interactions humain-bot.

2025-07-06T18:11:06+00:00 ― 6 min lire

Son Évaluer la compréhension musicale avec le benchmark MuChoMusic

Un nouveau critère pour évaluer les modèles qui analysent la musique et le langage.

2025-07-06T05:29:45+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer les modèles d'images pour la compréhension des graphiques

Un nouveau cadre évalue comment les modèles d'images interprètent les informations graphiques grâce à la précision des canaux.

2025-07-04T23:23:36+00:00 ― 6 min lire

Apprentissage automatique Évaluer des autoencodeurs sparses avec des jeux de société

Un nouveau cadre pour évaluer les autoencodeurs épars à travers les échecs et l'Othello.

2025-07-04T12:43:42+00:00 ― 6 min lire

Recherche d'informations Atelier sur les grands modèles de langage dans la recherche d'information

Des chercheurs discutent de l'impact des LLM sur l'évaluation des systèmes de recherche d'informations.

2025-06-30T04:26:54+00:00 ― 7 min lire

Apprentissage automatique Évaluer les grands modèles de langage pour une utilisation dans le monde réel

Une nouvelle approche pour évaluer les LLM avec des ensembles d'évaluation variés.

2025-06-26T22:53:48+00:00 ― 8 min lire

Calcul et langage Évaluer les grands modèles de langage de manière équitable

Une nouvelle approche pour évaluer les modèles de langage avec des instructions et des tâches variées.

2025-06-23T14:58:30+00:00 ― 8 min lire

Ordinateurs et société Évaluer l'IA fiable : méthodes et défis

Un aperçu de l'évaluation des systèmes d'IA fiables et des méthodes impliquées.

2025-06-21T05:26:12+00:00 ― 7 min lire

Génie logiciel Évaluer les résumés de rapports de bogues avec des LLM

Cette étude examine comment les LLM évaluent les résumés de rapports de bogues par rapport aux évaluateurs humains.

2025-06-18T20:41:18+00:00 ― 7 min lire

Calcul et langage Évaluation de la génération de texte long dans les LLMs

LongGenBench évalue les grands modèles de langage dans la génération de textes longs de haute qualité.

2025-06-17T21:54:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer des modèles de vision par ordinateur avec la théorie de la réponse à l'item

Utiliser l'IRT pour évaluer plus en profondeur la performance des modèles de vision par ordinateur.

2025-06-15T21:19:30+00:00 ― 7 min lire

Intelligence artificielle Nouveau benchmark VisScience évalue l'apprentissage multimodal

VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.

2025-06-15T07:37:54+00:00 ― 6 min lire

Calcul et langage Évaluer la réponse aux questions ancrées avec GroUSE

Cet article parle des défis et des solutions pour évaluer les modèles de question-réponse ancrés.

2025-06-14T07:48:00+00:00 ― 13 min lire

Calcul et langage Évaluation des systèmes de génération augmentée par récupération : un nouveau dataset

Présentation d'un ensemble de données pour évaluer la performance des systèmes RAG dans des scénarios du monde réel.

2025-06-09T11:56:00+00:00 ― 7 min lire

Calcul et langage Présentation de Michelangelo : Une nouvelle évaluation pour les modèles de langage

Michel-Ange évalue les modèles de langage sur leur capacité à raisonner à travers de longs contextes.

2025-06-09T07:51:06+00:00 ― 5 min lire

Calcul et langage Kalahi : Évaluation des modèles de langue dans la culture philippine

Un outil pour évaluer la pertinence et l'adéquation des modèles linguistiques dans des contextes filipins.

2025-06-09T04:49:24+00:00 ― 7 min lire