Derniers articles pour Évaluation du modèle

Apprentissage automatique Évaluation de la similarité représentative dans les réseaux neuronaux

Un nouveau benchmark évalue des méthodes pour mesurer la similarité de représentation en apprentissage automatique.

2025-07-03T18:17:42+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la fiabilité des modèles avec DECIDER

Une nouvelle méthode pour détecter les pannes dans les modèles de classification d'images.

2025-07-03T14:20:42+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles de langage dans la génération de sorties structurées

Évaluer à quel point les LLMs produisent des sorties JSON grâce à des tests StructuredRAG.

2025-07-01T07:34:18+00:00 ― 7 min lire

Apprentissage automatique Naviguer dans les défis de l'adaptation de domaine non supervisée

Une étude sur l'amélioration des méthodes UDA via l'évaluation et la compréhension des décalages de données.

2025-06-29T22:46:28+00:00 ― 8 min lire

Calcul et langage Améliorer la fusion de modèles avec ProFuser

Une nouvelle méthode pour combiner les modèles de langage de manière plus efficace.

2025-06-29T22:23:30+00:00 ― 8 min lire

Apprentissage automatique Améliorer la confiance avec l'AOPC normalisé dans les réseaux de neurones

Une nouvelle approche renforce la compréhension des prédictions du modèle grâce à l'attribution des caractéristiques.

2025-06-27T09:25:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelles idées sur l'évaluation des modèles de vision

Une nouvelle méthode révèle comment les modèles de vision organisent et comprennent les images.

2025-06-27T03:22:24+00:00 ― 8 min lire

Calcul et langage Évaluation de l'attribution dans les modèles de langage autorégressifs

Nouvelle technique pour mieux comprendre les prédictions des modèles en utilisant des exemples contrefactuels.

2025-06-25T10:01:48+00:00 ― 7 min lire

Apprentissage automatique Améliorer les prévisions de séries temporelles avec VMD et des modèles linéaires

Une méthode combinant VMD et modèles linéaires améliore la précision des prévisions.

2025-06-23T03:19:25+00:00 ― 7 min lire

Calcul et langage Un nouveau cadre pour évaluer les modèles de langage

Le cadre PoEM évalue les modèles de langue sans avoir besoin d'étiquettes précises.

2025-06-22T10:32:06+00:00 ― 7 min lire

Calcul et langage Évaluer la stabilité des modèles de langage à travers des variations d'entrée

Cette étude évalue comment de légers changements influencent les réponses des modèles de langage.

2025-06-22T09:42:00+00:00 ― 5 min lire

Calcul et langage Détecter la contamination dans les grands modèles de langage

Une nouvelle méthode aide à identifier la contamination des données de test dans les LLMs en utilisant les probabilités des tokens.

2025-06-22T01:19:06+00:00 ― 11 min lire

Apprentissage automatique Une nouvelle mesure pour évaluer les méthodes de sélection de caractéristiques

FSDEM propose une nouvelle approche pour évaluer les techniques de sélection de caractéristiques pour l'analyse des données.

2025-06-21T23:12:42+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Analyse de MAPWise : Un nouveau dataset pour les modèles vision-langage

Le dataset MAPWise met au défi les modèles avec des questions basées sur des cartes et évalue leurs compétences en raisonnement.

2025-06-19T21:42:18+00:00 ― 9 min lire

Calcul et langage Un nouveau système de notation pour les modèles linguistiques

Cet article parle d'un nouveau système de notation pour évaluer les modèles de langue de manière plus juste.

2025-06-18T21:36:36+00:00 ― 7 min lire

Apprentissage automatique Logit Scaling : Une nouvelle approche pour la détection OOD

Le Logit Scaling améliore la détection des données hors distribution sans données d'entraînement.

2025-06-18T10:17:12+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Comparer des modèles pour la détection de la pollution des rivières

Cette étude évalue des modèles de machine learning pour détecter les déchets dans les rivières.

2025-06-16T17:44:00+00:00 ― 6 min lire

Apprentissage automatique Évaluation de la distance d'adversaire dans les classificateurs d'apprentissage automatique

Une nouvelle méthode pour évaluer la robustesse des classificateurs ML en utilisant la distance d'adversaire.

2025-06-16T15:06:00+00:00 ― 8 min lire

Intelligence artificielle Évaluer les vraies compétences des modèles de langue

Un regard de plus près sur la façon dont les grands modèles de langage réalisent des tâches de base.

2025-06-13T22:50:48+00:00 ― 9 min lire

Calcul et langage Cross-Refine : Améliorer les explications des modèles de langage

Une nouvelle méthode améliore les explications de l'IA grâce à la collaboration entre deux modèles de langage.

2025-06-13T13:29:54+00:00 ― 7 min lire

Apprentissage automatique Évaluation des autoencodeurs variationnels par le degré topologique

Cette recherche explore comment le degré topologique évalue l'efficacité des VAE à capturer la structure des données.

2025-06-13T08:55:11+00:00 ― 6 min lire

Calcul et langage Équilibrer la connaissance locale et globale dans les LLMs

Une étude révèle comment les modèles de langage utilisent le contexte pour des réponses précises.

2025-06-13T08:06:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes S'attaquer au changement de distribution en apprentissage automatique

De nouvelles méthodes aident à comprendre comment les modèles réagissent aux changements de données.

2025-06-13T00:12:00+00:00 ― 8 min lire

Calcul et langage Défis pour détecter la contamination des données dans les LLMs

Cet article examine des méthodes pour détecter la contamination des données dans les grands modèles de langage.

2025-06-11T22:39:24+00:00 ― 8 min lire

Apprentissage automatique Améliorer la stabilité dans SGD avec des techniques de bootstrap

Ce papier explore comment les méthodes de bootstrap améliorent la stabilité et la robustesse dans les modèles SGD.

2025-06-11T04:10:28+00:00 ― 6 min lire

Apprentissage automatique Mesurer l'incertitude dans les modèles de langage

Un nouveau standard vise à améliorer l'évaluation de l'incertitude dans les modèles de langue.

2025-06-11T02:30:42+00:00 ― 7 min lire

Calcul et langage Améliorer les explications du machine learning avec le prompting par traces de programme

Une nouvelle méthode améliore le raisonnement des modèles grâce à des traces de programmation structurées.

2025-06-11T00:16:24+00:00 ― 10 min lire

Calcul et langage Évaluer la sécurité des modèles de langage ajustés

Examiner comment le fine-tuning affecte la sécurité des modèles de langage dans différentes tâches.

2025-06-10T08:04:42+00:00 ― 8 min lire

Apprentissage automatique Améliorer l'évaluation des modèles de machine learning avec la théorie de la réponse à l'item

Une nouvelle approche pour évaluer les modèles de ML en utilisant la théorie de la réponse à l'item pour des insights améliorés.

2025-06-10T02:18:24+00:00 ― 7 min lire

Apprentissage automatique Le Rôle des Modèles de Base Solides dans le ML en Santé

Des modèles de base solides améliorent l'évaluation des systèmes d'IA dans le secteur de la santé.

2025-06-10T01:53:24+00:00 ― 8 min lire

Apprentissage automatique Réévaluation des intervalles de confiance dans l'apprentissage par peu d'exemples

Un aperçu des intervalles de confiance dans l'apprentissage avec peu d'exemples et leur impact sur l'évaluation des modèles.

2025-06-09T22:58:08+00:00 ― 7 min lire

Calcul et langage Évaluer la véracité des modèles de langage

Examiner la compréhension et la précision des résultats des modèles de langue.

2025-06-09T04:02:00+00:00 ― 6 min lire

Apprentissage automatique Améliorer les réseaux de neurones informés par la physique avec des fonctions d'influence

Recherche mettant en avant l'utilisation des fonctions d'influence pour améliorer la performance des PINN dans les problèmes de physique.

2025-06-08T18:12:45+00:00 ― 8 min lire

Apprentissage automatique Comprendre la complexité des modèles en apprentissage automatique

Un aperçu de la dimension effective et son impact sur l'entraînement des modèles.

2025-06-08T09:25:08+00:00 ― 7 min lire

Calcul et langage Évaluer la fiabilité des modèles linguistiques en science

Ce papier évalue à quel point les modèles de langue expliquent les concepts scientifiques.

2025-06-08T07:37:30+00:00 ― 6 min lire

Apprentissage automatique Équilibrer performance et interprétabilité avec les GAMs

Cet article examine les GAM comme solution pour la performance prédictive et l'interprétabilité.

2025-06-08T01:18:18+00:00 ― 9 min lire

Apprentissage automatique Revoir la précision des tests en AutoML : le rôle des échantillons difficiles

Examiner comment les échantillons difficiles affectent la performance du modèle et la fiabilité de la précision des tests.

2025-06-08T00:30:54+00:00 ― 12 min lire

Calcul et langage Importance des couches dans les grands modèles de langage

Cet article examine comment différentes couches affectent la performance des LLM.

2025-06-08T00:07:12+00:00 ― 7 min lire

Apprentissage automatique L'impact de l'apprentissage par étiquettes douces dans les modèles de classification

Les étiquettes floues peuvent améliorer les performances des modèles de machine learning dans des situations de données incertaines.

2025-06-06T18:21:48+00:00 ― 8 min lire

Génie logiciel Présentation de RepairBench : Une nouvelle norme pour l'évaluation de la réparation de programmes par IA

RepairBench établit des normes pour comparer les modèles d'IA dans la réparation des bugs logiciels.

2025-06-04T10:00:36+00:00 ― 7 min lire