Derniers articles pour Étalon

Apprentissage automatique Prédire la performance des modèles de langage sur les benchmarks

Des chercheurs analysent la prévisibilité des performances des modèles linguistiques à mesure que les ressources d'entraînement augmentent.

2025-09-18T05:27:54+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Examiner l'apprentissage par porte dérobée dans les réseaux de neurones profonds

Un aperçu des attaques par porte dérobée et des défenses dans les modèles d'apprentissage profond.

2025-09-14T06:00:24+00:00 ― 8 min lire

Génie logiciel Évaluation des modèles de génération de code pour leur efficacité

Ce papier évalue l'efficacité du code généré à partir de différents modèles.

2025-09-11T17:42:12+00:00 ― 8 min lire

Calcul et langage Évaluation des modèles de langage avec un nouveau benchmark

Cet article présente une référence pour évaluer les modèles de langage large avec des tâches complexes.

2025-09-11T04:55:54+00:00 ― 8 min lire

Intelligence artificielle Évaluation des LLM dans des tâches de planification asynchrone

Cette étude évalue les capacités des grands modèles de langage dans des scénarios de planification complexes.

2025-09-10T23:16:12+00:00 ― 8 min lire

Intelligence artificielle Évaluer le comportement des robots en utilisant des modèles vidéo-langage

La recherche étudie l'utilisation des VLM pour évaluer les actions des robots.

2025-09-10T19:19:12+00:00 ― 9 min lire

Apprentissage automatique Avancées dans la modélisation et le design moléculaire

Explorer le rôle des grands modèles de langage dans la science moléculaire.

2025-09-10T18:55:30+00:00 ― 10 min lire

Robotique Tester des robots pour des défis inattendus

Explorer des méthodes pour améliorer les performances des robots dans des environnements imprévisibles.

2025-09-09T02:53:54+00:00 ― 6 min lire

Traitement de l'audio et de la parole Présentation d'AV-SUPERB : Une nouvelle référence pour les modèles audio-visuels

AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.

2025-09-08T22:32:35+00:00 ― 7 min lire

Recherche d'informations Avancées dans les modèles de récupération de longs documents

De nouveaux outils améliorent la façon dont les systèmes récupèrent des informations à partir de longs documents.

2025-09-08T20:26:48+00:00 ― 6 min lire

Calcul et langage Évaluation de l'IA médicale : un nouveau standard pour les Med-MLLMs

Ce benchmark évalue la performance des modèles de language médical dans le domaine de la santé.

2025-09-07T01:47:12+00:00 ― 10 min lire

Calcul et langage Édition de connaissances au niveau des événements : une nouvelle approche

Une méthode pour garder les modèles d'IA à jour en fonction des événements du monde réel.

2025-09-06T00:54:06+00:00 ― 8 min lire

Calcul et langage Évaluation des modèles de langage multimodaux sur les tâches des réseaux sociaux

Nouveaux tests de référence MLLMs sur des tâches de réseaux sociaux comme la désinformation et le discours de haine.

2025-09-05T16:28:30+00:00 ― 13 min lire

Robotique Faire avancer la génération de code pour robots avec RobotScript

RobotScript améliore la façon dont les robots réalisent des tâches à partir du langage naturel.

2025-09-05T03:58:00+00:00 ― 9 min lire

Cryptographie et sécurité Détection des Trojans matériels : Nouvelles approches

Une nouvelle façon de dénicher des menaces cachées dans la conception matérielle.

2025-09-03T18:55:06+00:00 ― 7 min lire

Intelligence artificielle Améliorer l'évaluation du raisonnement dans les modèles de langage

De nouvelles méthodes visent à mieux évaluer les compétences en raisonnement des modèles de langage IA.

2025-09-02T23:25:54+00:00 ― 8 min lire

Génie logiciel Présentation de DyPyBench : Un nouvel outil de benchmark Python

DyPyBench propose un ensemble varié de projets pour l'analyse dynamique en Python.

2025-09-02T10:15:54+00:00 ― 8 min lire

Calcul et langage L'IA transforme le développement web grâce au design visuel

La capacité de l'IA à transformer des designs en code est en train de révolutionner le développement web.

2025-09-01T08:03:48+00:00 ― 10 min lire

Génie logiciel Évaluation des modèles de langue : Le défi de la contamination des données

Une étude révèle un chevauchement de données important qui affecte les évaluations des modèles de langage dans la génération de code.

2025-09-01T02:16:12+00:00 ― 8 min lire

Bioinformatique Évaluation des grands modèles de langue pour l'analyse d'images biologiques

Évaluer les performances des LLM à travers un benchmark dédié à l'analyse bio-image.

2025-08-31T18:04:57+00:00 ― 8 min lire

Calcul et langage Évaluer les outils de traitement du langage pour de meilleures performances

Une nouvelle méthode pour évaluer les outils de traitement du langage montre des signes d'amélioration.

2025-08-31T11:31:24+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Évaluation efficace des détecteurs d'objets pré-entraînés

Une méthode pour évaluer la transférabilité des modèles pré-entraînés pour la détection d'objets.

2025-08-29T09:37:18+00:00 ― 6 min lire

Robotique Nouveau standard pour l'apprentissage des robots dans les tâches quotidiennes

Une ressource conçue pour aider les robots à apprendre des tâches quotidiennes efficacement.

2025-08-29T07:46:42+00:00 ― 8 min lire

Calcul et langage Évaluer les grands modèles de langage dans la prise de décision

Un aperçu de l'évaluation des capacités de prise de décision des grands modèles de langage.

2025-08-29T02:44:12+00:00 ― 9 min lire

Calcul et langage Améliorer le NLP pour les dialectes variés

Un cadre pour améliorer la performance du NLP à travers différents dialectes de langue.

2025-08-28T20:51:00+00:00 ― 5 min lire

Apprentissage automatique Nouveau benchmark révèle les limites des modèles de langage visuel

Un nouveau benchmark met en lumière les forces et les faiblesses des VLLMs dans des tâches multimodales.

2025-08-28T00:50:12+00:00 ― 7 min lire

Physique informatique Sommet de Monte Carlo sur la simulation : Avancer les techniques de simulation

Des experts se réunissent pour discuter des simulations de Monte Carlo et des améliorations des GPU.

2025-08-27T20:09:15+00:00 ― 9 min lire

Génie logiciel Défis pour les modèles de génération de code avec de nouveaux benchmarks

De nouveaux repères révèlent les forces et les faiblesses des modèles de langage de codage.

2025-08-25T06:36:30+00:00 ― 4 min lire

Calcul et langage Présentation de Meerkat-7B : Une nouvelle ère dans l'IA médicale

Meerkat-7B fixe une nouvelle norme pour les modèles de langage médical open-source.

2025-08-24T01:22:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans les techniques de résumé vidéo

De nouvelles méthodes améliorent la synthèse vidéo en utilisant de grands ensembles de données et des modèles avancés.

2025-08-22T11:11:42+00:00 ― 9 min lire

Calcul et langage Améliorer la compréhension de longs textes dans les modèles de langage

Des recherches montrent les défis que les LLM rencontrent pour comprendre des textes longs et proposent de nouveaux critères d'évaluation.

2025-08-21T09:07:30+00:00 ― 8 min lire

Architecture matérielle Unité de suivi de performance pour RISC-V dans les applications spatiales

Explorer la conception et les avantages d'un PMU pour les processeurs RISC-V utilisés dans l'espace.

2025-08-21T07:56:24+00:00 ― 6 min lire

Génie logiciel Analyser les benchmarks de génération de code pour des problèmes de qualité

Cette étude examine les problèmes de qualité dans les invites pour les modèles de génération de code.

2025-08-19T17:45:24+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de la perception visuelle dans les modèles de langage

Un nouveau benchmark révèle des lacunes dans la compréhension visuelle des grands modèles de langage.

2025-08-18T12:23:42+00:00 ― 9 min lire

Calcul et langage Évaluer la précision des grands modèles de vision-langage

Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.

2025-08-17T06:46:12+00:00 ― 7 min lire

Logique en informatique CHC-COMP 2023 : Évaluation des solveurs de clauses Horn contraintes

La compétition CHC a mis en avant les avancées dans les solveurs et leurs applications dans la vérification de programmes.

2025-08-17T00:50:42+00:00 ― 7 min lire

Calcul et langage Défis dans l'interprétation des réponses indirectes

Cet article explore comment améliorer la compréhension des réponses indirectes.

2025-08-16T21:56:54+00:00 ― 7 min lire

Calcul et langage Avancer l'apprentissage few-shot pour les tâches en polonais

Une étude évaluant des méthodes d'apprentissage par few-shot pour la classification de la langue polonaise.

2025-08-15T22:38:36+00:00 ― 6 min lire

Calcul et langage Présentation de PatentGPT : des LLM spécialisés pour la propriété intellectuelle

Les modèles PatentGPT sont conçus pour répondre à des défis uniques dans la propriété intellectuelle.

2025-08-15T17:38:24+00:00 ― 5 min lire

Génie logiciel Évaluer les outils de sécurité des contrats intelligents

Une étude sur l'efficacité des outils SAST pour les contrats intelligents.

2025-08-15T17:30:30+00:00 ― 10 min lire