Derniers articles pour Évaluation

Calcul et langage Combiner des approches pour un question-réponse efficace basé sur des tables

Une nouvelle méthode améliore la précision des réponses aux questions provenant de tableaux en fusionnant deux systèmes.

2025-06-05T14:34:54+00:00 ― 10 min lire

Calcul et langage Distractions Efficaces : Améliorer les Questions à Choix Multiples

Une nouvelle méthode pour créer des distracteurs intéressants dans les évaluations éducatives.

2025-06-05T07:44:06+00:00 ― 7 min lire

Interaction homme-machine Améliorer l'accessibilité avec la génération automatique de texte alternatif

Une nouvelle méthode vise à améliorer le texte alt pour les icônes d'applis mobiles afin d'aider les utilisateurs malvoyants.

2025-06-05T04:10:48+00:00 ― 6 min lire

Intelligence artificielle Présentation de DREAMS : un nouveau cadre pour l'analyse des données EEG

DREAMS simplifie l'apprentissage profond pour les données EEG, en promouvant la transparence et des pratiques éthiques.

2025-06-04T22:39:00+00:00 ― 9 min lire

Calcul et langage Évaluer la fidélité des explications en IA

Un regard sur l'évaluation de la fiabilité des explications de l'IA à travers la sensibilité aux attaques.

2025-06-04T21:27:54+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Nouveaux modèles qui transforment l'IA multimodale

Les modèles récents améliorent la capacité de l'IA à générer et comprendre différents médias.

2025-06-04T08:49:30+00:00 ― 6 min lire

Apprentissage automatique ARLBench : Une nouvelle approche pour l'optimisation des hyperparamètres dans l'apprentissage par renforcement

ARLBench simplifie le réglage des hyperparamètres pour l'apprentissage par renforcement avec des outils de benchmark efficaces.

2025-06-04T08:02:06+00:00 ― 9 min lire

Traitement de l'image et de la vidéo Évaluation de la qualité de segmentation en imagerie médicale

Un modèle pour évaluer la qualité de la segmentation sans références de vérité terrain.

2025-06-03T22:35:30+00:00 ― 10 min lire

Robotique Améliorer la sécurité des véhicules autonomes grâce à la classification des données des capteurs

Une méthode pour gérer les données de capteurs conflictuelles dans les véhicules autonomes pour améliorer la sécurité.

2025-06-03T04:15:12+00:00 ― 6 min lire

Traitement de l'audio et de la parole Avancées dans les codecs neuraux avec ESPnet-Codec

ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.

2025-06-03T03:09:30+00:00 ― 9 min lire

Bases de données Partage de données sécurisé : Une nouvelle approche

Une méthode en trois étapes pour partager des données en toute sécurité tout en protégeant la vie privée.

2025-06-02T09:33:24+00:00 ― 7 min lire

Informatique de santé Évaluation des grands modèles de langage dans la santé : présentation de ClinicBench

Nouveau standard comble les lacunes dans l'évaluation des LLM pour la prise de décision clinique.

2025-06-01T19:51:00+00:00 ― 9 min lire

Langages de programmation Rendre le débogage plus facile avec la visualisation

Visualiser des programmes fonctionnels peut simplifier le processus de débogage pour les programmeurs.

2025-06-01T18:40:42+00:00 ― 8 min lire

Interaction homme-machine IA générative en design : Une nouvelle approche

Explorer comment l'IA générative influence les processus de design d'interaction.

2025-05-31T19:46:06+00:00 ― 6 min lire

Calcul et langage Analyser les valeurs dans les textes

Cette étude examine les valeurs dans les textes humains et générés par l'IA pour mieux comprendre.

2025-05-30T00:09:27+00:00 ― 4 min lire

Bioinformatique Comprendre l'impact de la biologie des réseaux

NetworkCommons est un nouvel outil pour étudier les interactions moléculaires.

2025-05-28T22:38:52+00:00 ― 8 min lire

Apprentissage automatique Améliorer les modèles de langue grâce à l'auto-formation

Un nouveau cadre améliore le raisonnement dans les modèles de langage avec des justifications de qualité.

2025-05-26T10:14:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la compréhension des relations spatiales par l'IA

Une étude compare des modèles d'IA sur leur capacité à comprendre les relations spatiales.

2025-05-24T20:50:06+00:00 ― 8 min lire

Cryptographie et sécurité Naviguer dans les défis des grands modèles de langage visuel

Examiner les vulnérabilités et les défenses des nouveaux modèles d'IA.

2025-05-23T22:25:57+00:00 ― 8 min lire

Calcul et langage Évaluation de la détection de langage toxique dans les dialectes

Examiner comment les modèles détectent les commentaires toxiques dans différents dialectes de langue.

2025-05-21T20:24:27+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes MTFusion : Une nouvelle approche de la modélisation 3D

MTFusion combine images et texte pour créer des modèles 3D avancés.

2025-05-20T18:44:33+00:00 ― 7 min lire

Éducation médicale Repenser les admissions en médecine

Un aperçu des admissions holistiques et de leur impact sur les futurs médecins.

2025-05-20T15:45:18+00:00 ― 8 min lire

Graphisme Synthèse de matériaux innovants pour visuels numériques

Une nouvelle méthode pour créer des matériaux réalistes améliore la flexibilité pour les artistes et les designers.

2025-05-20T13:57:27+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Traiter le biais dans les modèles vision-langage

Une nouvelle approche s'attaque efficacement aux biais dans les modèles image-texte.

2025-05-18T13:16:00+00:00 ― 8 min lire

Génie logiciel Évaluer les modèles de langue pour l'assistance au codage

Évaluer l'efficacité des modèles linguistiques dans les tâches de codage avec de nouveaux benchmarks.

2025-05-15T17:42:40+00:00 ― 7 min lire

Calcul et langage Traiter les hallucinations dans les modèles de langage

Comprendre comment les Graphes de Connaissances peuvent réduire les fausses infos dans les réponses de l'IA.

2025-05-14T12:34:40+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Nouvelle méthode améliore l'évaluation des cartes d'attribution

Une nouvelle façon d'évaluer les modèles de décision de l'IA en utilisant des cartes d'attribution.

2025-05-12T12:26:40+00:00 ― 8 min lire

Intelligence artificielle L'importance grandissante de la collaboration entre humains et IA

Examiner comment les humains et l'IA peuvent bosser ensemble efficacement.

2025-05-11T14:04:00+00:00 ― 12 min lire

Calcul et langage Évaluer avec des grands modèles de langage : avantages et inconvénients

Un aperçu de comment les LLMs améliorent les processus d'évaluation tout en affrontant des défis clés.

2025-05-11T11:57:20+00:00 ― 8 min lire

Intelligence artificielle Les LLMs peuvent-ils juger la créativité de manière équitable ?

Cette étude examine à quel point les LLM évaluent la créativité dans le Test des Usages Alternatifs.

2025-05-11T10:16:00+00:00 ― 6 min lire

Apprentissage automatique STAR : Une nouvelle approche pour la conception de modèles d'IA

STAR automatise la création de modèles d'IA pour des résultats plus intelligents et plus rapides.

2025-05-07T04:30:40+00:00 ― 8 min lire

Calcul et langage ER 2Score : Une nouvelle façon d'évaluer les rapports de radiologie

ER 2Score améliore l'évaluation de la qualité des rapports de radiologie automatisés.

2025-05-05T22:57:20+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes PhyT2V : Rendre la création vidéo réelle

Transformer des prompts textuels en vidéos réalistes en intégrant des lois physiques.

2025-04-30T02:21:20+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles linguistiques : la cohérence compte

Les grands modèles de langage sont-ils des évaluateurs fiables ? Exploration de la cohérence de leurs évaluations.

2025-04-29T21:17:20+00:00 ― 9 min lire

Calcul et langage ChemTEB : Un nouveau point de référence pour les embeddings de texte chimique

ChemTEB aide à améliorer le traitement des textes chimiques en évaluant des modèles spécialisés.

2025-04-29T20:26:40+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes AgriBench : L'avenir de la technologie agricole

AgriBench évalue des outils IA pour aider à prendre des décisions agricoles plus intelligentes.

2025-04-29T14:57:20+00:00 ― 9 min lire

Calcul et langage Évaluer de gros modèles de langage : une nouvelle approche

Découvrez comment SelfPrompt aide à évaluer efficacement la puissance des modèles de langage.

2025-04-27T12:04:45+00:00 ― 4 min lire

Intelligence artificielle Démasquer le Sandbagging : Les Risques Cachés de l'IA

Apprends comment le sandbagging influence les évaluations de l'IA et des astuces pour le détecter.

2025-04-25T09:07:00+00:00 ― 7 min lire

Calcul et langage Rendre le texte cinghalais plus facile à lire

Découvrez comment les chercheurs simplifient les textes en cinghalais pour mieux comprendre.

2025-04-23T08:02:30+00:00 ― 8 min lire

Génie logiciel Révolutionner les tests de logiciels avec TDD-Bench

TDD-Bench améliore la génération de tests automatisés pour les développeurs qui utilisent les méthodes TDD.

2025-04-21T20:10:45+00:00 ― 9 min lire