Derniers articles pour Évaluation

Calcul et langage Faire progresser les modèles de langue arabe avec le dataset InstAr-500k

Nouveau dataset améliore la performance du modèle de langue arabe et favorise une communication efficace.

2025-07-20T16:05:30+00:00 ― 8 min lire

Calcul et langage L'impact de la quantification sur les modèles multilingues

Étudier comment la quantification affecte les performances dans différentes langues.

2025-07-20T08:43:06+00:00 ― 7 min lire

Génie logiciel Améliorer la détection des vulnérabilités dans les systèmes logiciels

Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.

2025-07-20T06:36:42+00:00 ― 10 min lire

Recherche d'informations Améliorer la récupération de code avec un nouveau benchmark

Un nouveau benchmark s'attaque aux défis de la récupération de code pour les développeurs.

2025-07-20T02:47:36+00:00 ― 9 min lire

Calcul et langage Améliorer l'exactitude factuelle dans les modèles de langage

De nouvelles méthodes améliorent la fiabilité des textes générés par les modèles de langage.

2025-07-19T21:23:42+00:00 ― 5 min lire

Calcul et langage S'attaquer aux hallucinations dans les modèles de langage

Un outil pour identifier les réponses trompeuses des grands modèles de langages.

2025-07-19T14:25:00+00:00 ― 8 min lire

Calcul et langage Évaluation des grands modèles de langage : points clés

Découvre l'importance et les défis d'évaluer efficacement la performance des LLM.

2025-07-19T12:26:30+00:00 ― 7 min lire

Génie logiciel Évaluation des modèles de base : défis et solutions

Un aperçu des classements des modèles de fondation et de leurs problèmes d'évaluation.

2025-07-19T12:10:42+00:00 ― 9 min lire

Calcul et langage Aligner les évaluations de l'IA avec les préférences humaines

L'étude révèle le biais dans les outils d'évaluation de l'IA qui favorisent les réponses plus longues.

2025-07-19T00:11:48+00:00 ― 6 min lire

Apprentissage automatique Améliorer l'évaluation des modèles de langage avec des méthodes stratifiées

Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.

2025-07-18T10:41:56+00:00 ― 9 min lire

Calcul et langage Cadre pour l'évaluation des langues diversifiées en PNL

Une nouvelle méthode pour sélectionner des langues diverses dans la recherche en traitement du langage naturel.

2025-07-18T05:06:18+00:00 ― 8 min lire

Calcul et langage Évaluation du raisonnement temporel dans les modèles de langage

Un nouveau repère évalue les capacités de raisonnement temporel des grands modèles de langage.

2025-07-17T23:10:48+00:00 ― 6 min lire

Apprentissage automatique Nouvelles méthodes dans les fonctions d'acquisition pour l'optimisation bayésienne

Approche innovante pour créer des fonctions d'acquisition efficaces pour l'optimisation bayésienne.

2025-07-17T20:30:48+00:00 ― 7 min lire

Intelligence artificielle Évaluer la résumé de récits avec le jeu de données StorySumm

Un nouveau jeu de données améliore la précision dans l'évaluation des résumés d'histoires générés par des modèles de langage.

2025-07-17T19:05:54+00:00 ― 6 min lire

Intelligence artificielle Évaluer les agents d'analytique de données avec un nouveau standard

Une nouvelle méthode pour évaluer les agents d'analyse de données afin d'obtenir de meilleures idées pour les affaires.

2025-07-17T16:35:48+00:00 ― 7 min lire

Robotique Améliorer l'interaction humain-robot grâce à la détection d'erreurs

Un défi pour améliorer la compréhension des interactions humaines par les robots.

2025-07-17T10:00:48+00:00 ― 8 min lire

Calcul et langage Améliorer le processus de révision des articles académiques

Un nouveau cadre vise à automatiser les revues de papiers pour obtenir des retours de meilleure qualité.

2025-07-16T23:36:42+00:00 ― 9 min lire

Calcul et langage Avancées dans les modèles de langue hébraïque : DictaLM 2.0

Présentation de DictaLM 2.0 et DictaLM 2.0-Instruct pour une meilleure traitement de la langue hébraïque.

2025-07-16T18:44:24+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la compétence culturelle dans les modèles de texte à image

Cette étude examine à quel point les modèles représentent bien les cultures différentes.

2025-07-16T14:31:36+00:00 ― 11 min lire

Calcul et langage Avancées dans la génération d'histoires en arabe avec les LLMs

Un projet axé sur l'amélioration de la génération d'histoires en arabe en utilisant des modèles avancés.

2025-07-15T17:19:42+00:00 ― 9 min lire

Calcul et langage Repenser les méthodes d'évaluation pour les LLMs

Une nouvelle approche pour évaluer les grands modèles de langage afin d'obtenir de meilleures idées sur leurs performances.

2025-07-15T16:32:18+00:00 ― 6 min lire

Traitement de l'audio et de la parole Améliorer la reconnaissance vocale pour la langue polonaise

La recherche présente de nouvelles méthodes pour évaluer les systèmes de reconnaissance vocale en polonais.

2025-07-14T16:44:10+00:00 ― 8 min lire

Apprentissage automatique Données Synthétiques : Une Solution pour la Confidentialité dans le Retail

Découvrez comment les données synthétiques aident les détaillants à protéger la vie privée des clients tout en obtenant des insights.

2025-07-13T11:22:24+00:00 ― 9 min lire

Calcul et langage Évaluer la lecture de documents avec DocBench

DocBench évalue des systèmes basés sur des LLM pour lire et répondre à différents formats de documents.

2025-07-13T04:45:42+00:00 ― 5 min lire

Calcul et langage Évaluer les LLM en utilisant des interprètes de code pour des tâches de science des données

Un cadre pour évaluer les capacités des LLM dans les tâches liées aux données avec des interprètes de code.

2025-07-13T01:20:18+00:00 ― 6 min lire

Calcul et langage Aborder les stéréotypes dans les grands modèles de langage

Examiner l'impact des LLM sur les stéréotypes sociaux et comment améliorer les résultats.

2025-07-12T10:51:18+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Évaluation des modèles vidéo-texte : une nouvelle approche

Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.

2025-07-12T01:06:42+00:00 ― 8 min lire

Calcul et langage Défis dans l'évaluation des grands modèles multimodaux

Analyser l'importance et les difficultés d'évaluer les modèles d'IA multimodaux.

2025-07-11T21:09:42+00:00 ― 8 min lire

Calcul et langage Faire avancer le questionnement long avec RobustQA

Un nouveau jeu de données pour améliorer la performance des réponses aux questions avec de longues réponses rédigées par des humains.

2025-07-11T09:50:18+00:00 ― 8 min lire

Calcul et langage Modèles de langue Phi-3 : sécurité et alignement

Les modèles Phi-3 se concentrent sur la sécurité et l'alignement avec les valeurs humaines.

2025-07-11T06:17:00+00:00 ― 8 min lire

Calcul et langage Défis de la prédiction d'articles manquants dans les LLMs

Examiner les problèmes avec les grands modèles de langage pour prédire les éléments manquants d'une liste.

2025-07-10T22:38:48+00:00 ― 9 min lire

Calcul et langage Évaluation des résumés scientifiques : IA vs. compréhension humaine

Une étude comparant les modèles d'IA et les évaluations humaines des résumés scientifiques.

2025-07-10T21:34:47+00:00 ― 7 min lire

Intelligence artificielle Évaluer les modèles de langage dans le codage scientifique

Un nouveau benchmark évalue les modèles de langage sur des défis de codage scientifique dans plusieurs domaines.

2025-07-10T17:22:48+00:00 ― 7 min lire

Calcul et langage Check-Eval : Une nouvelle façon de mesurer la qualité des textes

Check-Eval utilise des listes de contrôle pour améliorer l'évaluation de la qualité des textes.

2025-07-10T10:16:12+00:00 ― 9 min lire

Calcul et langage ProtoDep : Une nouvelle approche pour détecter la dépression sur les réseaux sociaux

ProtoDep propose des infos claires pour détecter la dépression grâce à l'analyse des réseaux sociaux.

2025-07-09T17:01:18+00:00 ― 10 min lire

Apprentissage automatique Évaluation des circuits de réseau de neurones : un aperçu critique

Cette étude analyse la performance des circuits de réseaux neuronaux et leur fiabilité.

2025-07-09T11:53:12+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération d'images avec LSReGen

Un nouveau cadre pour créer des images de haute qualité basées sur des mises en page spécifiques.

2025-07-09T09:54:42+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes HaloQuest : Une nouvelle approche de l'hallucination dans les VLMs

HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.

2025-07-08T23:14:48+00:00 ― 12 min lire

Vision par ordinateur et reconnaissance des formes Améliorer le suivi des points dans les vidéos

Une nouvelle méthode améliore la précision et l'efficacité du suivi de points dans le traitement vidéo.

2025-07-08T17:35:06+00:00 ― 6 min lire

Génie logiciel Améliorer la catégorisation des actions pour les développeurs

Un outil améliore la catégorisation des actions, aidant à la productivité des devs dans leurs tâches.

2025-07-08T13:38:06+00:00 ― 6 min lire