Derniers articles pour Évaluation

Vision par ordinateur et reconnaissance des formes Présentation de VideoVista : Une nouvelle référence pour le QA vidéo

VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.

2025-07-27T13:35:48+00:00 ― 8 min lire

Informatique distribuée, parallèle et en grappes Améliorer la reproductibilité dans la recherche sur les systèmes distribués

Cet article explore des méthodes pour améliorer la fiabilité des artefacts de recherche en informatique.

2025-07-27T08:04:00+00:00 ― 10 min lire

Calcul et langage Un coup d'œil plus près aux modèles GLM-4

Les modèles GLM-4 montrent de meilleures capacités dans la compréhension et la génération de langage.

2025-07-27T06:52:54+00:00 ― 10 min lire

Calcul et langage Évaluation des modèles linguistiques : une nouvelle approche

Une étude sur l'utilisation des LLMs pour juger d'autres LLMs et ses implications.

2025-07-27T04:30:42+00:00 ― 9 min lire

Calcul et langage Raisons dans le classement des arguments par des modèles de langage

Une étude sur comment les modèles de langage génèrent des raisons convaincantes pour évaluer des arguments.

2025-07-26T20:52:30+00:00 ― 7 min lire

Calcul et langage De nouveaux modèles de langue améliorent l'accessibilité du galicien

Deux nouveaux modèles visent à améliorer l'accès à la technologie pour les locuteurs galiciens.

2025-07-26T20:44:36+00:00 ― 7 min lire

Calcul et langage Défis de la traduction automatique dans les métaphores

Examiner les difficultés de traduire un langage métaphorique en traduction automatique.

2025-07-26T17:58:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation du DF40 : Un nouveau jeu de données pour la détection des deepfakes

DF40 propose une approche complète pour améliorer les méthodes de détection des deepfakes.

2025-07-26T16:08:06+00:00 ― 8 min lire

Calcul et langage Évaluer l'honnêteté des grands modèles de langage

Cette étude évalue l'honnêteté des LLM dans trois domaines clés.

2025-07-26T14:33:18+00:00 ― 7 min lire

Recherche d'informations Améliorer les systèmes de question-réponse dans les entreprises

Découvrez comment les entreprises améliorent leurs systèmes de questions-réponses pour un meilleur support utilisateur.

2025-07-26T12:26:54+00:00 ― 5 min lire

Intelligence artificielle Évaluer la compréhension de l'IA sur les algorithmes

Une étude sur comment l'IA comprend les algorithmes et leurs implications.

2025-07-26T11:31:36+00:00 ― 8 min lire

Calcul et langage Évaluation de la classification de texte inter-domaines en profondeur

Une nouvelle métrique améliore l'évaluation des modèles de classification de texte dans différents domaines.

2025-07-26T10:44:12+00:00 ― 9 min lire

Calcul et langage Contamination des données dans les modèles de langage : une préoccupation croissante

La contamination des données affecte grave l'évaluation des grands modèles de langue.

2025-07-26T10:12:36+00:00 ― 7 min lire

Calcul et langage Évaluation des grands modèles de langage pour l'alignement éthique

Une nouvelle méthode pour évaluer les LLMs s'aligne avec les valeurs humaines.

2025-07-26T05:12:24+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes S'attaquer au biais dans l'IA : l'approche VLBiasBench

Un nouvel outil pour évaluer les biais dans les grands modèles de vision-langage.

2025-07-26T01:15:24+00:00 ― 8 min lire

Calcul et langage Évaluer la diversité dans la génération automatique de poésie

Une étude évalue comment les machines créent de la poésie variée et créative comparée à celle des humains.

2025-07-25T20:38:54+00:00 ― 8 min lire

Calcul et langage Évaluer les contre-narrations contre les discours de haine

Une nouvelle méthode améliore notre façon d'évaluer les contre-narrations à la haine.

2025-07-25T20:15:12+00:00 ― 8 min lire

Calcul et langage Présentation d'InternLM-Law : Un modèle pour les questions juridiques

InternLM-Law améliore les réponses à diverses questions juridiques chinoises grâce à une formation avancée.

2025-07-25T15:30:48+00:00 ― 9 min lire

Calcul et langage Le rôle des profils utilisateurs dans les modèles de langue

Explorer comment les profils d'utilisateurs améliorent la personnalisation dans les modèles de langue.

2025-07-25T14:11:48+00:00 ― 8 min lire

Calcul et langage Évaluer la performance du modèle dans la compréhension des dépendances de plan

Des recherches montrent que les modèles galèrent avec les dépendances d'étapes dans les recettes de cuisine.

2025-07-25T11:41:42+00:00 ― 7 min lire

Calcul et langage Une nouvelle façon d'évaluer les modèles de langage

Ce papier présente une méthode pour évaluer les modèles de langage à travers différents prompts.

2025-07-25T08:45:12+00:00 ― 8 min lire

Calcul et langage Évaluer le biais de genre dans les modèles de langage selon les régions

Une nouvelle méthode aborde les différences régionales dans l'évaluation des biais de genre.

2025-07-25T07:13:06+00:00 ― 8 min lire

Calcul et langage Nouveau jeu de données améliore les modèles de langue pour les conversations multi-échanges

Le dataset M2Lingual améliore les capacités de suivi des instructions dans plusieurs langues.

2025-07-24T23:03:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle approche pour évaluer les modèles de texte à image

Cet article présente une nouvelle méthode pour évaluer efficacement les modèles de texte à image.

2025-07-24T20:25:18+00:00 ― 8 min lire

Calcul et langage Évaluation des modèles de langue italiens avec les tests INVALSI

Cette étude évalue la performance des modèles linguistiques en utilisant les tests INVALSI italiens.

2025-07-24T09:37:30+00:00 ― 10 min lire

Calcul et langage Avancées dans les systèmes RAG : Un nouveau cadre d'évaluation

RAGBench propose un dataset complet pour évaluer les systèmes de Génération Augmentée par Récupération.

2025-07-24T05:24:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des grands modèles de vision-langage avec Dysca

Dysca introduit une nouvelle façon d'évaluer la performance des LVLM en utilisant des données synthétiques.

2025-07-24T03:49:54+00:00 ― 9 min lire

Logiciels mathématiques Avancées dans les techniques d'optimisation topologique

Un aperçu des méthodes modernes en conception d'ingénierie pour l'efficacité et la performance.

2025-07-23T22:52:08+00:00 ― 9 min lire

Calcul et langage Avancées dans les méthodes d'extraction d'événements causaux

Une nouvelle approche améliore l'extraction d'événements causaux en utilisant une évaluation centrée sur l'humain.

2025-07-23T21:38:36+00:00 ― 7 min lire

Apprentissage automatique Évaluer l'impact du report des systèmes en apprentissage automatique

Évaluer comment le fait de faire confiance aux experts humains affecte la précision des prédictions dans les modèles d'IA.

2025-07-23T14:11:48+00:00 ― 10 min lire

Apprentissage automatique Faire avancer l'optimisation bayésienne avec une recherche d'entropie robuste

Présentation d'une nouvelle méthode pour de meilleures solutions dans des tâches complexes en ingénierie et en robotique.

2025-07-23T07:31:16+00:00 ― 7 min lire

Calcul et langage Évaluation des jeux de données pour la détection de discours de haine

Une étude évaluant la qualité des jeux de données pour identifier les discours de haine en ligne.

2025-07-23T04:07:54+00:00 ― 10 min lire

Calcul et langage Évaluation de la révision des croyances dans les modèles linguistiques

Une nouvelle méthode mesure comment les modèles linguistiques adaptent leurs croyances avec de nouvelles preuves.

2025-07-22T18:07:30+00:00 ― 11 min lire

Vision par ordinateur et reconnaissance des formes Repenser les méthodes d'évaluation pour les modèles multimodaux

Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.

2025-07-22T12:12:00+00:00 ― 8 min lire

Intelligence artificielle Évaluer les LLM avec l'outil GraphArena

GraphArena évalue la performance des LLM sur des problèmes de graphes en utilisant des données du monde réel.

2025-07-22T10:13:30+00:00 ― 8 min lire

Mathématiques discrètes Crédit Équitable dans les Projets de Groupe : Une Nouvelle Approche

Explore une méthode équitable pour partager le mérite dans les projets de groupe.

2025-07-21T22:54:06+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles de langage pour la recherche scientifique

Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.

2025-07-21T19:52:24+00:00 ― 9 min lire

Intelligence artificielle Présentation de CRAB : Un nouveau standard pour les modèles de langage

CRAB améliore les tests pour les modèles de langage dans des environnements réels.

2025-07-21T18:41:18+00:00 ― 8 min lire

Recherche d'informations Évaluer les systèmes de recherche d'infos dans des environnements qui changent

Cet article examine l'impact des changements temporels sur les évaluations des systèmes de recherche d'information.

2025-07-21T15:08:00+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Aborder l'équité dans les modèles d'imagerie médicale

Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.

2025-07-21T07:45:36+00:00 ― 8 min lire