Derniers articles pour Évaluation

Intelligence artificielle Exploiter les modèles de langage pour générer des hypothèses scientifiques

Cet article explore comment les LLM génèrent et affinent des hypothèses scientifiques à partir des données existantes.

2025-08-22T06:43:06+00:00 ― 10 min lire

Intelligence artificielle Améliorer la complétion des graphes de connaissances avec KGExplainer

KGExplainer améliore la transparence dans la complétion des graphes de connaissances grâce à des explications significatives.

2025-08-22T01:42:54+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode pour créer des images humaines réalistes

Une nouvelle approche pour générer des images détaillées de personnes dans des scènes complexes.

2025-08-21T20:26:54+00:00 ― 8 min lire

Calcul et langage Évaluer la sécurité des gros modèles de langage

Une revue des ensembles de données axés sur l'amélioration de la sécurité des LLM.

2025-08-21T08:04:18+00:00 ― 9 min lire

Intelligence artificielle Une nouvelle approche de l'apprentissage multi-agents

Révolutionner la performance des agents grâce à l'évaluation et à l'accumulation d'expérience.

2025-08-21T05:42:06+00:00 ― 8 min lire

Intelligence artificielle Évaluation et amélioration des agents numériques

Un focus sur les méthodes pour évaluer et améliorer la performance des agents numériques.

2025-08-21T02:24:36+00:00 ― 4 min lire

Génie logiciel Améliorer la correction de bugs avec des grands modèles de langage

Une nouvelle méthode utilise des LLM pour améliorer l'efficacité de la réparation de programmes.

2025-08-20T06:55:24+00:00 ― 7 min lire

Calcul et langage Évaluer la réflexion personnelle dans les modèles de langage

Des recherches montrent comment l'auto-réflexion affecte la performance des modèles de langage selon différents types de questions.

2025-08-20T01:15:42+00:00 ― 7 min lire

Logique Le rôle de la substitution schématique et de l'unification en logique

Explorer les concepts clés en logique et en informatique pour un raisonnement efficace.

2025-08-19T18:55:30+00:00 ― 8 min lire

Génie logiciel Évaluer les besoins logiciels avec des modèles de langage

Un aperçu de l'utilisation des modèles de langage pour évaluer la satisfaction des exigences logicielles.

2025-08-18T13:50:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de la perception visuelle dans les modèles de langage

Un nouveau benchmark révèle des lacunes dans la compréhension visuelle des grands modèles de langage.

2025-08-18T12:23:42+00:00 ― 9 min lire

Économie théorique Marchés de correspondance : L'impact du bruit sur les admissions à l'université

Analyser comment le bruit affecte l'appariement des étudiants et des universités dans les processus d'admission.

2025-08-18T06:13:18+00:00 ― 8 min lire

Calcul et langage Améliorer la précision des résumés scientifiques avec des retours

Utiliser des mécanismes de rétroaction pour améliorer les résumés scientifiques générés par les LLM.

2025-08-18T05:40:48+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans le Question Réponse Visuel Centré sur le Texte

Le nouveau dataset Square-10M améliore carrément les capacités de questionnement visuel en open-source.

2025-08-18T02:31:12+00:00 ― 9 min lire

Génie logiciel Automatisation de la génération de scénarios de test dans le développement logiciel

Cet article présente une méthode pour générer des scénarios de test à partir de exigences en langage naturel.

2025-08-18T02:15:24+00:00 ― 10 min lire

Calcul et langage Une nouvelle méthode pour l'automatisation web

Cette méthode améliore l'extraction de données des pages web en utilisant des règles structurées.

2025-08-18T01:59:36+00:00 ― 6 min lire

Calcul et langage Évaluer la précision des grands modèles de vision-langage

Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.

2025-08-17T06:46:12+00:00 ― 7 min lire

Logique en informatique CHC-COMP 2023 : Évaluation des solveurs de clauses Horn contraintes

La compétition CHC a mis en avant les avancées dans les solveurs et leurs applications dans la vérification de programmes.

2025-08-17T00:50:42+00:00 ― 7 min lire

Calcul et langage Retour Automatisé : Une Nouvelle Approche pour Rédiger des Essais

Cette étude examine des systèmes automatiques pour fournir des retours sur les essais en utilisant des modèles de langue.

2025-08-16T18:31:30+00:00 ― 8 min lire

Apprentissage automatique Le rôle croissant des données synthétiques dans la recherche

Les données synthétiques offrent des solutions rentables tout en garantissant la vie privée et en réduisant les biais.

2025-08-16T18:07:48+00:00 ― 8 min lire

Calcul et langage Évaluer les modèles de langage avec le benchmark VISLA

Un nouveau référentiel évalue la compréhension des modèles de langage sur les significations et les relations des mots.

2025-08-16T08:07:24+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Évaluer l'extraction d'infos dans des textes manuscrits

De nouvelles métriques améliorent l'évaluation des systèmes d'extraction d'informations dans les documents manuscrits.

2025-08-15T11:58:42+00:00 ― 8 min lire

Systèmes multi-agents Évaluation de la performance de l'IA dans les systèmes multi-agents

Un cadre pour évaluer les stratégies d'IA dans des environnements compétitifs et coopératifs.

2025-08-15T07:22:12+00:00 ― 8 min lire

Génie logiciel Mesurer la confiance dans les résumés de code générés par l'IA

Évaluer la fiabilité des résumés produits par l'IA pour améliorer la maintenance des logiciels.

2025-08-15T02:53:36+00:00 ― 9 min lire

Informatique de santé Le rôle de ChatGPT dans le secteur de la santé

Examiner comment ChatGPT impacte le système de santé et ses usages potentiels.

2025-08-14T23:39:30+00:00 ― 6 min lire

Calcul et langage DynaMo : Faire avancer les modèles de langue avec la prédiction multi-token

Les modèles DynaMo génèrent du texte plus vite et avec une meilleure qualité grâce à la prédiction multi-token.

2025-08-14T23:04:30+00:00 ― 7 min lire

Calcul et langage Améliorer les sections "Travaux liés" dans les articles de recherche

Un nouveau jeu de données améliore la génération des sections de travaux connexes dans les articles scientifiques.

2025-08-14T00:33:36+00:00 ― 11 min lire

Recherche d'informations Faire avancer la recherche conversationnelle avec TREC iKAT

TREC iKAT vise à améliorer les interactions avec les agents conversationnels grâce à des dialogues personnalisés.

2025-08-13T20:28:42+00:00 ― 9 min lire

Calcul et langage Automatiser les réponses aux avis clients

SCRABLE propose des solutions automatisées pour gérer efficacement les avis d'applis.

2025-08-13T13:53:42+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluer l'avenir des modèles multimodaux vidéo de grande taille

Évaluer les capacités et les défis des modèles avancés de compréhension vidéo.

2025-08-13T12:42:36+00:00 ― 7 min lire

Calcul et langage Évaluer les explications de l'IA : une nouvelle approche

Cette étude analyse l'efficacité des LLM pour évaluer les explications générées par l'IA.

2025-08-12T12:36:54+00:00 ― 9 min lire

Calcul et langage Évaluation des modèles de langage : le benchmark DoLoMiTes

Un nouveau cadre évalue à quel point les modèles de langue aident les experts avec les tâches d'écriture.

2025-08-12T08:39:54+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Présentation de PEAVS : Une nouvelle façon de mesurer la synchronisation audio-visuelle

PEAVS analyse comment l'audio et la vidéo fonctionnent ensemble pour offrir de meilleures expériences aux spectateurs.

2025-08-12T03:19:55+00:00 ― 9 min lire

Intelligence artificielle Évaluer l'impact de l'entraînement DNN : Une nouvelle méthode

Une méthode rapide pour évaluer la performance d'un DNN après un nouvel entraînement.

2025-08-12T00:22:12+00:00 ― 8 min lire

Apprentissage automatique Améliorer la transparence des modèles d'IA avec des autoencodeurs épars

Les autoencodeurs sparses améliorent l'interprétabilité des systèmes d'IA et leurs processus de prise de décision.

2025-08-11T02:07:06+00:00 ― 9 min lire

Calcul et langage Évaluer la compréhension du monde par l'IA

Un aperçu de comment les modèles d'IA comprennent les connaissances essentielles du monde.

2025-08-10T22:41:42+00:00 ― 7 min lire

Calcul et langage Évaluer la toxicité dans les modèles de langue multilingues

Une nouvelle référence évalue la toxicité dans les grands modèles de langage à travers différentes langues.

2025-08-10T21:30:36+00:00 ― 10 min lire

Génie logiciel Améliorer les évaluations de fuzzing pour une meilleure qualité logicielle

Cet article parle de la nécessité d'avoir de meilleures pratiques d'évaluation dans la recherche sur le fuzzing.

2025-08-10T15:11:24+00:00 ― 7 min lire

Interaction homme-machine Évaluation des méthodes de saillance en NLP : une perspective humaine

Cette étude évalue les méthodes de saillance en NLP à travers une évaluation humaine.

2025-08-10T07:56:54+00:00 ― 11 min lire

Apprentissage automatique Améliorer l'analyse des heatmaps pour les décisions IA

Présentation de PQAH pour mieux comprendre les cartes thermiques de l'IA et leur évaluation.

2025-08-09T15:29:24+00:00 ― 10 min lire