Derniers articles pour Étalon

Apprentissage automatique Avancer l'oubli machine : un benchmark unifié

Un nouveau critère pour l'oubli machine améliore l'évaluation et la comparaison des méthodes.

2025-07-26T12:42:42+00:00 ― 10 min lire

Génie logiciel Avancées dans la génération de code avec des techniques augmentées par récupération

Une nouvelle méthode améliore la précision de la génération de code en utilisant des documents externes.

2025-07-26T08:06:12+00:00 ― 10 min lire

Performances CEBench : Une approche équilibrée pour évaluer les LLMs

CEBench aide les entreprises et les chercheurs à évaluer les LLMs tout en gérant les coûts et la performance.

2025-07-26T00:43:48+00:00 ― 7 min lire

Calcul et langage Évaluer l'apprentissage en contexte dans les modèles de langage

Les recherches mettent en lumière les capacités d'apprentissage en contexte des grands modèles de langage.

2025-07-25T16:18:12+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des modèles SLAM dans des environnements bruyants

Nouveau cadre qui évalue la performance du SLAM dans des conditions difficiles.

2025-07-25T00:06:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer les hallucinations dans les modèles vidéo-langage

Nouveau benchmark évalue comment les modèles vidéo-langue gèrent efficacement les inexactitudes.

2025-07-24T17:47:18+00:00 ― 8 min lire

Calcul et langage L'influence des modèles de langue sur la persuasion

Évaluer comment les LLM créent des textes persuasifs sur différents sujets.

2025-07-24T13:26:36+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles de langue italiens avec les tests INVALSI

Cette étude évalue la performance des modèles linguistiques en utilisant les tests INVALSI italiens.

2025-07-24T09:37:30+00:00 ― 10 min lire

Apprentissage automatique Améliorer l'apprentissage actif avec un nouvel outil de référence

Un outil de référence fait progresser les stratégies d'apprentissage actif en apprentissage automatique.

2025-07-24T06:51:36+00:00 ― 9 min lire

Génie logiciel Évaluation des LLM pour la génération d’assertions dans la conception matérielle

Cet article évalue l'efficacité des grands modèles de langage dans la création d'assertions matérielles.

2025-07-24T01:27:42+00:00 ― 9 min lire

Calcul et langage Améliorer la lecture d'écran pour les déficiences visuelles

Un nouveau système d'IA améliore l'accessibilité pour les utilisateurs malvoyants grâce à une meilleure lecture d'écran.

2025-07-23T10:27:06+00:00 ― 6 min lire

Calcul et langage Présentation d'une nouvelle référence pour les modèles de langue russes

Un repère de paires minimales vise à améliorer la compréhension de la grammaire russe par des modèles linguistiques.

2025-07-23T09:55:30+00:00 ― 8 min lire

Apprentissage automatique Découverte de données efficace avec des modèles basés sur des croquis

Un nouveau modèle simplifie l'analyse de données dans de vastes ensembles de données en utilisant des esquisses.

2025-07-23T03:44:12+00:00 ― 8 min lire

Apprentissage automatique Introduction des Fonctions d'Ehrlich pour l'Optimisation de Séquences

Un nouveau standard pour améliorer les méthodes d'optimisation des séquences biophysiques.

2025-07-23T01:53:36+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Une nouvelle approche pour la détection des anomalies

Cette étude présente une nouvelle méthode pour détecter des anomalies dans divers contextes.

2025-07-22T23:47:12+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Repenser les méthodes d'évaluation pour les modèles multimodaux

Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.

2025-07-22T12:12:00+00:00 ― 8 min lire

Biomolécules Avancées dans la classification des enzymes avec le benchmark CARE

Un nouveau référentiel aide à prédire le comportement des enzymes en utilisant l'apprentissage automatique.

2025-07-22T04:11:30+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Modèles avancés pour la génération de descriptions vidéo

De nouveaux modèles produisent des descriptions vidéo de haute qualité efficacement.

2025-07-22T02:35:18+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Nouveau Standard pour les Modèles Vision-Langage en Microscopie

Un référentiel complet améliore l'évaluation des modèles vision-langage pour l'analyse d'images biologiques.

2025-07-21T21:03:30+00:00 ― 10 min lire

Calcul et langage Évaluation des modèles de langage pour la recherche scientifique

Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.

2025-07-21T19:52:24+00:00 ― 9 min lire

Recherche d'informations Améliorer la récupération de code avec un nouveau benchmark

Un nouveau benchmark s'attaque aux défis de la récupération de code pour les développeurs.

2025-07-20T02:47:36+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la robustesse visuelle dans les systèmes VQA

Cette recherche examine comment les problèmes visuels impactent les modèles de Question-Réponse Visuelle.

2025-07-19T18:22:00+00:00 ― 9 min lire

Cryptographie et sécurité NFARD : Une nouvelle approche pour la détection de la réutilisation de modèles

NFARD propose des méthodes innovantes pour protéger les droits d'auteur des modèles d'apprentissage profond.

2025-07-19T07:02:36+00:00 ― 8 min lire

Intelligence artificielle Un modèle de garde-fou innovant améliore la sécurité des modèles de langue

Un nouveau modèle améliore la surveillance de la sécurité des grands modèles de langage contre le contenu nuisible.

2025-07-18T02:12:30+00:00 ― 9 min lire

Apprentissage automatique Avancer l'optimisation bayésienne pour des problèmes complexes

Un aperçu de comment l'optimisation bayésienne s'attaque aux défis de haute dimension.

2025-07-17T19:40:44+00:00 ― 9 min lire

Intelligence artificielle Évaluer les agents d'analytique de données avec un nouveau standard

Une nouvelle méthode pour évaluer les agents d'analyse de données afin d'obtenir de meilleures idées pour les affaires.

2025-07-17T16:35:48+00:00 ― 7 min lire

Intelligence artificielle Standardisation de l'évaluation des algorithmes pour les problèmes de coupe maximale

Présentation de MaxCut-Bench pour une évaluation cohérente des algorithmes dans les défis d'optimisation.

2025-07-17T09:34:08+00:00 ― 9 min lire

Calcul et langage Évaluer la confiance dans le traitement de longs documents

Améliorer la façon dont les modèles traitent les preuves dans de longs documents renforce la confiance des utilisateurs.

2025-07-15T22:35:42+00:00 ― 5 min lire

Intelligence artificielle Évaluation des modèles de langue à travers des jeux classiques

Évaluer les capacités des LLM avec des jeux en grille comme Tic-Tac-Toe et Puissance 4.

2025-07-15T22:27:48+00:00 ― 9 min lire

Ordinateurs et société Assurer la sécurité de l'IA : nouveau repère introduit

Un nouveau benchmark vise à évaluer efficacement les risques de sécurité de l'IA.

2025-07-15T13:14:48+00:00 ― 10 min lire

Architecture matérielle Avancées dans le design matériel multi-modal

Combiner visuels et langage améliore la précision de génération de code matériel.

2025-07-15T02:50:42+00:00 ― 8 min lire

Apprentissage automatique Évaluation des modèles de prédiction spatio-temporels

Un nouveau critère répond au besoin d'évaluation standard dans la prédiction spatio-temporelle.

2025-07-15T01:47:30+00:00 ― 10 min lire

Calcul et langage Améliorer les techniques d'évaluation des modèles de langage

De nouvelles méthodes améliorent les tests pour les modèles linguistiques, en se concentrant sur des domaines de performance clés.

2025-07-15T00:20:36+00:00 ― 8 min lire

Apprentissage automatique S'attaquer aux défis de l'apprentissage de graphes avec un nouveau benchmark

Un nouveau critère pour évaluer les méthodes d'apprentissage sur graphes qui s'attaquent à l'hétérophilie et à l'hétérogénéité.

2025-07-13T09:22:12+00:00 ― 8 min lire

Calcul et langage Évaluer les LLM en utilisant des interprètes de code pour des tâches de science des données

Un cadre pour évaluer les capacités des LLM dans les tâches liées aux données avec des interprètes de code.

2025-07-13T01:20:18+00:00 ― 6 min lire

Calcul et langage Analyser la compréhension de la négation par CLIP

Un aperçu de comment CLIP gère la négation dans le langage.

2025-07-13T01:04:30+00:00 ― 8 min lire

Apprentissage automatique Équité dans l'apprentissage des graphes : un nouveau standard

Établir un standard pour évaluer l’équité dans les méthodes d’apprentissage graphique.

2025-07-12T17:26:18+00:00 ― 9 min lire

Intelligence artificielle Avancées dans le Raisonnement avec les Modèles de Langage

Explorer comment les modèles de langage gèrent efficacement les tâches de raisonnement.

2025-07-12T06:46:24+00:00 ― 7 min lire

Intelligence artificielle Évaluer les modèles de langage dans le codage scientifique

Un nouveau benchmark évalue les modèles de langage sur des défis de codage scientifique dans plusieurs domaines.

2025-07-10T17:22:48+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans l'interprétation des graphiques machine

Un nouveau modèle améliore la façon dont les machines lisent les graphiques, même sans étiquettes.

2025-07-10T11:11:30+00:00 ― 6 min lire