Derniers articles pour Évaluation du modèle

Apprentissage automatique Évaluer les compétences en programmation Java des LLMs

Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.

2025-07-31T06:52:00+00:00 ― 8 min lire

Apprentissage automatique Évaluer la généralisation dans les modèles d'apprentissage automatique

Cet article explore des stratégies pour améliorer la généralisation des modèles et comprendre le comportement du gradient.

2025-07-30T16:30:54+00:00 ― 9 min lire

Calcul et langage Évaluer la sécurité des modèles de langage multimodaux

Un kit d'outils pour évaluer la sécurité des modèles de langage avancés.

2025-07-30T14:40:18+00:00 ― 7 min lire

Calcul et langage Comparer les modèles affinés et l'IA générative dans la classification de texte

Cet article analyse la performance des modèles ajustés par rapport à l'IA générative dans les tâches de classification de texte.

2025-07-30T02:17:42+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la robustesse des modèles de l'espace d'état visuel

Cet article examine comment les modèles de l'espace d'état visuel gèrent les défis visuels.

2025-07-29T11:48:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation du raisonnement multi-image dans les modèles d'IA

Un nouveau jeu de données évalue comment les LLM raisonnent avec plusieurs images.

2025-07-29T07:35:54+00:00 ― 7 min lire

Calcul et langage Évaluation des LLM : Aperçus sur la prise de décision humaine

Enquêter sur comment les prédictions des LLM s'alignent avec les choix humains en utilisant des modèles statistiques.

2025-07-29T05:05:48+00:00 ― 13 min lire

Apprentissage automatique Évaluation des raccourcis de raisonnement dans les modèles IA

Une nouvelle suite de tests aide à évaluer les raccourcis de raisonnement dans l'intelligence artificielle.

2025-07-28T23:57:42+00:00 ― 8 min lire

Intelligence artificielle Tester des modèles de langue avec plusieurs problèmes

Une étude évalue les modèles de langage sur leur capacité à gérer plusieurs tâches en même temps.

2025-07-28T14:05:12+00:00 ― 10 min lire

Calcul et langage Évaluer les compétences en raisonnement dans les grands modèles de langage

Une étude met en lumière les lacunes dans les capacités de raisonnement des LLM pour résoudre des problèmes de maths.

2025-07-28T03:56:54+00:00 ― 9 min lire

Intelligence artificielle Nouvelle approche pour évaluer les modèles multilingues

Une nouvelle méthode pour tester la sécurité des modèles de langage et leurs compétences multilingues.

2025-07-28T02:37:54+00:00 ― 10 min lire

Apprentissage automatique Évaluer les méthodes de sélection de caractéristiques dans des données bruyantes

Méthodes pour identifier des caractéristiques importantes dans des environnements de données de mauvaise qualité.

2025-07-28T00:47:18+00:00 ― 9 min lire

Calcul et langage Évaluer le désapprentissage dans les modèles de langage

De nouvelles méthodes révèlent des défis pour désapprendre des connaissances des modèles de langage.

2025-07-27T17:24:54+00:00 ― 8 min lire

Apprentissage automatique Examiner les frontières de décision dans les modèles de langage

Une étude sur les processus de prise de décision des grands modèles de langage.

2025-07-27T12:24:42+00:00 ― 6 min lire

Apprentissage automatique L'importance de la calibration des modèles en apprentissage automatique

Un aperçu de comment la calibration influence les prédictions et la fiabilité des modèles.

2025-07-27T09:09:04+00:00 ― 12 min lire

Calcul et langage L'impact des modèles de langage à long contexte

Les modèles de langage à long contexte simplifient les tâches complexes et améliorent l'interaction avec l'IA.

2025-07-27T08:59:18+00:00 ― 10 min lire

Calcul et langage Évaluer les connaissances dans les modèles de langage sans réponses générées

Une méthode pour évaluer la connaissance du modèle à travers le traitement interne.

2025-07-27T05:26:00+00:00 ― 9 min lire

Calcul et langage Traiter la contamination des données dans les modèles de langage

Examiner l'impact de la contamination des données sur la performance et l'évaluation des modèles de langue.

2025-07-26T14:25:24+00:00 ― 7 min lire

Apprentissage automatique Les modèles texte-image galèrent avec les tâches numériques

Cette étude révèle les limites des modèles de texte à image pour gérer les chiffres.

2025-07-26T12:03:12+00:00 ― 7 min lire

Calcul et langage Évaluation de la classification de texte inter-domaines en profondeur

Une nouvelle métrique améliore l'évaluation des modèles de classification de texte dans différents domaines.

2025-07-26T10:44:12+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des modèles de traitement d'images pour la compréhension multi-objets

Une plongée profonde sur la façon dont les modèles de vision reconnaissent et représentent plusieurs objets.

2025-07-26T06:15:12+00:00 ― 7 min lire

Cryptographie et sécurité Détection des entrées adversariales dans les modèles d'apprentissage profond

Une étude sur l'efficacité des détecteurs OOD contre les exemples adverses.

2025-07-25T18:40:24+00:00 ― 10 min lire

Calcul et langage Évaluer l'apprentissage en contexte dans les modèles de langage

Les recherches mettent en lumière les capacités d'apprentissage en contexte des grands modèles de langage.

2025-07-25T16:18:12+00:00 ― 8 min lire

Recherche d'informations Évaluation des modèles de recherche avec des ensembles de données améliorés

Une étude qui met en avant l'importance des annotations complètes pour l'évaluation de la récupération.

2025-07-25T06:02:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes S'attaquer aux biais spuria dans les modèles multimodaux

Un nouveau référentiel met en avant les risques de biais erronés dans les modèles de langage multimodaux.

2025-07-25T01:25:30+00:00 ― 9 min lire

Apprentissage automatique Réévaluer les méthodes de feedback dans la génération d'images

Enquête sur les retours détaillés pour les modèles texte-image et ses implications pratiques.

2025-07-24T23:34:54+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer les hallucinations dans les modèles vidéo-langage

Nouveau benchmark évalue comment les modèles vidéo-langue gèrent efficacement les inexactitudes.

2025-07-24T17:47:18+00:00 ― 8 min lire

Calcul et langage APIGen : un outil pour les ensembles de données d'appel de fonctions

APIGen génère des ensembles de données diversifiés et de haute qualité pour les agents d'appel de fonctions.

2025-07-24T00:24:30+00:00 ― 7 min lire

Calcul et langage Aborder la contamination des références dans les modèles linguistiques

Une nouvelle méthode pour détecter les biais dans l'entraînement des modèles linguistiques.

2025-07-23T22:49:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Présentation du modèle SAVE pour la segmentation audio-visuelle

Le modèle SAVE améliore la segmentation audio-visuelle avec efficacité et précision.

2025-07-23T16:07:20+00:00 ― 7 min lire

Apprentissage automatique Nouvelle méthode pour estimer la performance du modèle avec des logits

Une nouvelle approche pour évaluer la précision du modèle sans étiquettes pendant les changements de données.

2025-07-23T06:41:12+00:00 ― 7 min lire

Science des matériaux Évaluer l'apprentissage automatique pour la science des matériaux

Aperçus sur les défis de l'apprentissage automatique pour prédire les propriétés des matériaux.

2025-07-23T00:26:54+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Repenser les méthodes d'évaluation pour les modèles multimodaux

Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.

2025-07-22T12:12:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer l'apprentissage multimodal dans les modèles de langue

Cette étude examine comment les données visuelles et textuelles influencent la performance des modèles.

2025-07-22T07:03:54+00:00 ― 9 min lire

Intelligence artificielle Décomposition Contextuelle : Une Nouvelle Perspective pour les Transformers

CD-T améliore la compréhension des modèles de transformateur, renforçant l'interprétation et la confiance.

2025-07-22T06:40:12+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Mesurer le biais de genre dans les grands modèles de vision-langage

Un nouveau référentiel évalue le biais de genre dans les modèles d'IA liés aux postes de travail.

2025-07-22T01:40:00+00:00 ― 7 min lire

Apprentissage automatique S'attaquer aux attaques par backdoor en mode clean-label dans l'apprentissage automatique

Examiner les vulnérabilités des attaques par backdoor clean-label et comment les bornes de généralisation peuvent aider.

2025-07-21T22:58:40+00:00 ― 8 min lire

Multimédia OpenVNA : Faire avancer la compréhension des langues dans le bruit

Un nouvel outil pour tester les modèles de langue dans des environnements bruyants.

2025-07-21T05:23:24+00:00 ― 5 min lire

Apprentissage automatique Réévaluation des évaluations des modèles de machine learning pour les données tabulaires

Une nouvelle approche pour évaluer les modèles de ML en se concentrant sur la préparation des données.

2025-07-20T15:49:42+00:00 ― 11 min lire

Apprentissage automatique Évaluation des méthodes d'IA explicable pour la fiabilité

La recherche évalue la stabilité des méthodes XAI en utilisant un ensemble de données sur le diabète.

2025-07-20T07:08:18+00:00 ― 8 min lire