Derniers articles pour Évaluation des données

Traitement de l'image et de la vidéo Améliorer l'évaluation des images de microscopie avec MicroSSIM

MicroSSIM améliore l'évaluation de la qualité d'image en microscopie pour de meilleurs résultats scientifiques.

2025-06-29T12:21:40+00:00 ― 7 min lire

Calcul et langage Évaluer les systèmes de génération augmentée par récupération

Un nouveau cadre pour évaluer la performance des systèmes RAG.

2025-06-27T07:51:00+00:00 ― 10 min lire

Calcul et langage Nouvelle évaluation de référence pour mesurer les compétences juridiques des modèles de langue en arabe

ArabLegalEval évalue la performance des LLM dans le traitement des informations juridiques en arabe.

2025-06-27T05:52:30+00:00 ― 8 min lire

Apprentissage automatique Aborder les hallucinations relationnelles dans l'IA multimodale

Nouveau benchmark pour s'attaquer aux hallucinations relationnelles dans les modèles de langage multimodaux.

2025-06-26T06:26:18+00:00 ― 7 min lire

Recherche d'informations Nouvelle méthode pour évaluer les réponses santé des modèles linguistiques

Une nouvelle méthode pour évaluer les réponses liées à la santé générées par des modèles d'IA.

2025-06-25T15:09:54+00:00 ― 8 min lire

Calcul et langage Évaluation des chatbots : L'essor de Soda-Eval

Soda-Eval fixe de nouvelles normes pour les méthodes d'évaluation des chatbots.

2025-06-25T03:58:24+00:00 ― 7 min lire

Calcul et langage Avancées dans les modèles de langage médical avec MedS-Bench

Un nouveau benchmark et un nouveau jeu de données améliorent l'évaluation des modèles de langage médical.

2025-06-23T19:42:54+00:00 ― 7 min lire

Recherche d'informations Évaluation du soutien aux citations dans la génération de texte

Une nouvelle méthode pour évaluer comment les citations soutiennent les déclarations dans le texte généré.

2025-06-23T17:04:54+00:00 ― 7 min lire

Intelligence artificielle Évaluer les métriques des modèles de langue : une plongée profonde

Des chercheurs examinent la fiabilité des indicateurs de sécurité des modèles de langue.

2025-06-23T14:50:36+00:00 ― 8 min lire

Intelligence artificielle Nouveau repère pour évaluer la génération de code dans les LLMs

Un benchmark multi-domaine évalue les capacités de génération de code des LLM dans différents domaines.

2025-06-23T06:56:36+00:00 ― 8 min lire

Recherche d'informations Améliorer les réponses de l'IA dans des contextes légaux avec HyPA-RAG

Un nouveau système optimise les réponses de l'IA pour les domaines juridiques, en se concentrant sur la Loi Locale 144 de New York.

2025-06-20T13:38:12+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des techniques de correspondance d'images pour la reconstruction 3D

Une étude sur l'efficacité des méthodes de correspondance d'images dans différents scénarios.

2025-06-20T03:29:54+00:00 ― 8 min lire

Calcul et langage Défis des modèles de langage vision multilingues

Examiner l'efficacité des LVLMs à générer des explications artistiques multilingues.

2025-06-18T18:03:18+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Évaluer les compétences de catégorisation dans les modèles d'IA

Cette étude évalue comment l'IA catégorise les images par rapport aux humains.

2025-06-18T17:08:00+00:00 ― 9 min lire

Intelligence artificielle Nouveau standard pour évaluer les modèles qui utilisent des API

Une nouvelle méthode d'évaluation pour les grands modèles de langage en utilisant des appels API imbriqués.

2025-06-17T11:46:18+00:00 ― 6 min lire

Traitement de l'audio et de la parole OpenACE : Un Nouveau Standard pour l’Évaluation des Codecs Audio

OpenACE fournit une référence équitable pour évaluer les codecs audio dans différentes conditions.

2025-06-13T14:58:55+00:00 ― 6 min lire

Calcul et langage Évaluer les similitudes d'images : Méthodes et modèles

Apprends à évaluer et comparer les images efficacement.

2025-06-10T11:30:06+00:00 ― 6 min lire

Calcul et langage Améliorer les modèles de langue avec le système VERA

VERA améliore la précision et la pertinence des réponses des modèles de langage.

2025-06-10T08:20:30+00:00 ― 7 min lire

Calcul et langage RAGProbe : Simplifier les évaluations du système RAG

RAGProbe automatise l'évaluation des systèmes RAG, boostant leur performance et leur fiabilité.

2025-06-07T04:38:00+00:00 ― 8 min lire

Informatique de santé Évaluer les modèles de langage dans la recherche clinique

Un nouveau jeu de données améliore l'évaluation des modèles de langage en termes de précision des essais cliniques.

2025-06-05T11:49:00+00:00 ― 9 min lire

Apprentissage automatique Nouveau jeu de données pour améliorer l'apprentissage visuel de l'IA

Un dataset aide les systèmes IA à mieux apprendre des visuels distrayants.

2025-06-05T09:18:54+00:00 ― 9 min lire

Intelligence artificielle Évaluer le suivi des instructions dans des conversations à plusieurs tours

Une étude sur la façon dont les modèles suivent les instructions pendant des dialogues complexes.

2025-06-05T06:40:54+00:00 ― 8 min lire

Calcul et langage HealthQ : Transformer le questionnement par l'IA dans la santé

HealthQ évalue la capacité de l'IA à poser des questions dans le soin des patients.

2025-06-03T21:45:54+00:00 ― 10 min lire

Calcul et langage Amélioration de la décomposition des questions visuelles dans les modèles multimodaux

Explorer des méthodes pour améliorer les modèles multimodaux dans l'analyse des questions visuelles.

2025-06-03T18:52:06+00:00 ― 8 min lire

Intelligence artificielle Évaluation de la mémoire pour les agents LLM

Voici MemSim, un outil pour évaluer l'efficacité de la mémoire dans les assistants de modèles de langage.

2025-06-03T01:21:24+00:00 ― 7 min lire

Son Avancer le traitement multi-audio avec MALLM

Présentation d'un nouveau modèle et d'une référence pour évaluer les tâches multi-audio.

2025-05-31T19:17:15+00:00 ― 7 min lire

Calcul et langage Évaluer la générabilité du code : Une nouvelle approche

On regarde comment vérifier si on peut répondre efficacement aux questions de codage.

2025-05-27T10:23:15+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Présentation d'EVQAScore : Une nouvelle méthode pour le QA vidéo

EVQAScore améliore l'évaluation de la QA vidéo de manière efficace et efficiente.

2025-05-25T13:21:54+00:00 ― 7 min lire

Apprentissage automatique Améliorer l'IA multimodale avec la méthode ECIF

La nouvelle méthode ECIF améliore la performance des modèles d'IA multimodaux grâce à une meilleure évaluation des données.

2025-05-20T01:34:40+00:00 ― 4 min lire

Recherche d'informations Évaluation des modèles de récupération de documents pour la langue tchèque

Les chercheurs évaluent différents modèles de recherche en tchèque, mettant en avant les points forts et les faiblesses.

2025-05-18T20:26:40+00:00 ― 6 min lire

Bioinformatique Naviguer dans le monde de l'analyse de cellules uniques

Découvre comment l'analyse unicellulaire aide à percer les mystères du comportement cellulaire.

2025-05-18T19:15:32+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes IA en radiologie : L'essor de ReXrank

ReXrank propose une nouvelle façon d'évaluer les outils d'IA pour la génération de rapports de radiologie.

2025-05-12T23:00:00+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode améliore l'évaluation des cartes d'attribution

Une nouvelle façon d'évaluer les modèles de décision de l'IA en utilisant des cartes d'attribution.

2025-05-12T12:26:40+00:00 ― 8 min lire

Calcul et langage Évaluer les biais dans la recherche biomédicale

Apprends à mesurer le biais dans les études biomédicales pour des données de santé fiables.

2025-05-05T03:32:00+00:00 ― 6 min lire

Interaction homme-machine Défis pour évaluer les chatbots : les votes des utilisateurs en danger

Examiner les problèmes dans les évaluations de chatbots pilotés par la communauté et comment les améliorer.

2025-04-11T18:18:00+00:00 ― 7 min lire

Calcul et langage S'attaquer aux réponses foireuses de l'IA avec SciFaultyQA

Une nouvelle initiative teste la capacité de l'IA à traiter des questions scientifiques absurdes.

2025-03-03T03:20:15+00:00 ― 8 min lire

Calcul et langage MT-Lens : Élever l'évaluation de la traduction automatique

MT-Lens propose un super kit d'outils pour améliorer les évaluations de la traduction automatique.

2025-02-28T19:09:45+00:00 ― 7 min lire

Calcul et langage OmniEval : Améliorer la performance RAG dans la finance

Le nouvel étalon OmniEval améliore l'évaluation des systèmes RAG dans la finance.

2025-02-24T18:03:36+00:00 ― 10 min lire

Calcul et langage RAG-RewardBench : Aligner l'IA avec les besoins humains

Un nouvel outil améliore les réponses de l'IA pour mieux correspondre aux préférences humaines.

2025-02-17T07:06:09+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Réévaluer ImageNet : Une approche multi-label

Les chercheurs appellent à un changement vers des évaluations multi-label dans la vision par ordinateur.

2025-01-27T15:57:36+00:00 ― 8 min lire