Derniers articles pour Évaluation

Vision par ordinateur et reconnaissance des formes Avancées dans le traitement d'image des smartphones

Un modèle pour une qualité photo cohérente sur différents smartphones.

2025-09-18T16:39:24+00:00 ― 10 min lire

Recherche d'informations Améliorer les recommandations de mode avec des alternatives

Introduire des alternatives peut améliorer la satisfaction des utilisateurs dans les systèmes de recommandation de mode.

2025-09-17T15:30:30+00:00 ― 7 min lire

Calcul et langage Évaluer les LLM dans les concours de maths au lycée

Un nouveau jeu de données évalue les capacités des modèles de langage à résoudre des problèmes de maths avancés.

2025-09-17T08:47:36+00:00 ― 7 min lire

Génie logiciel S'attaquer à la duplication de code entre les ensembles de données dans l'évaluation des modèles

Examiner les effets de la duplication de code entre les datasets sur les métriques de performance des modèles.

2025-09-17T01:33:06+00:00 ― 10 min lire

Apprentissage automatique Améliorer RAG pour la génération de texte en portugais brésilien

Cette étude se concentre sur l'amélioration des méthodes de génération augmentée par récupération pour le portugais brésilien.

2025-09-17T00:53:36+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes WAVES : Un nouveau standard pour le filigrane d'images

Cette étude présente WAVES, une référence pour évaluer les techniques de watermarking face à différentes attaques.

2025-09-16T13:42:06+00:00 ― 5 min lire

Calcul et langage Orion-14B : Une nouvelle ère dans les modèles de langue

Orion-14B déchire dans la compréhension et la génération de textes multilingues avec 14 milliards de paramètres.

2025-09-15T17:49:12+00:00 ― 8 min lire

Recherche d'informations Évaluer la personnalité dans les systèmes de dialogue

De nouvelles méthodes évaluent comment les systèmes de dialogue maintiennent la cohérence de la personnalité.

2025-09-15T11:14:12+00:00 ― 9 min lire

Calcul et langage Une nouvelle approche pour la composition des connaissances en NLP

Ce cadre améliore la façon dont les connaissances sont combinées dans les modèles d'apprentissage automatique pour de meilleures performances.

2025-09-14T22:59:30+00:00 ― 9 min lire

Intelligence artificielle Utiliser des modèles de langage pour résumer les rapports PET

Une étude révèle que les modèles de langage peuvent générer des impressions utiles sur les rapports PET.

2025-09-14T07:36:21+00:00 ― 8 min lire

Calcul et langage Évaluation des grands modèles de langage dans le diagnostic médical

Évaluer la précision des LLM pour diagnostiquer des conditions médicales à partir d'images et de symptômes.

2025-09-13T23:41:12+00:00 ― 5 min lire

Calcul et langage Améliorer l'éval' de l'IA dans les rapports de radiologie

Cette recherche améliore les évaluations des rapports de radiologie générés par l'IA grâce à la collaboration d'experts.

2025-09-13T18:56:48+00:00 ― 10 min lire

Ordinateurs et société Évaluer la sécurité de l'IA générative : le rôle du red-teaming

Analyser comment le red-teaming peut améliorer la sécurité de l'IA et s'attaquer aux risques potentiels.

2025-09-13T12:13:54+00:00 ― 9 min lire

Ordinateurs et société S'attaquer à l'amplification des nuisances dans les modèles d'IA

Examiner l'amplification des dommages dans les modèles de texte à image et son impact sur la société.

2025-09-12T18:11:36+00:00 ― 9 min lire

Calcul et langage Aligner des modèles de langage avec les préférences humaines

Ce papier parle d'ajuster les modèles de langage pour qu'ils s'alignent avec les valeurs et les attentes humaines.

2025-09-12T13:03:30+00:00 ― 8 min lire

Calcul et langage Présentation d'un modèle de langage ouvert et transparent

Un nouveau modèle de langue ouvert pour la recherche et l'innovation en traitement du langage naturel.

2025-09-12T09:14:24+00:00 ― 7 min lire

Son Un nouveau cadre pour l'anonymisation des intervenants

Présentation d'un cadre flexible pour améliorer la recherche sur la confidentialité vocale.

2025-09-12T05:05:10+00:00 ― 9 min lire

Interaction homme-machine EvaLLM : Un Cadre pour Évaluer les Visualisations Générées par l'IA

EvaLLM propose une approche structurée pour évaluer le contenu visuel généré par l'IA.

2025-09-11T21:07:36+00:00 ― 8 min lire

Apprentissage automatique Assurer la confiance dans l'apprentissage automatique : Une nouvelle approche

Une méthode pour vérifier les modèles d'apprentissage automatique afin d'améliorer la confiance et la transparence.

2025-09-11T16:15:18+00:00 ― 8 min lire

Calcul et langage Comprendre l'IA avec SIDU-TXT : Une nouvelle approche

SIDU-TXT éclaire les décisions de l'IA en traitement du langage naturel.

2025-09-11T02:57:24+00:00 ― 7 min lire

Communication scientifique et éducation Biais de genre dans les évaluations de la recherche académique

Des recherches montrent que les femmes subissent des biais dans les évaluations et le financement dans le milieu académique.

2025-09-11T00:05:30+00:00 ― 13 min lire

Vision par ordinateur et reconnaissance des formes Transformer des notes manuscrites en encre numérique

Une nouvelle méthode transforme les notes manuscrites en encre numérique pour une utilisation facile.

2025-09-09T20:56:12+00:00 ― 9 min lire

Génie logiciel Défis de reproductibilité dans la prédiction des défauts logiciels

Une analyse des problèmes de reproductibilité dans la recherche sur la prédiction des défauts de logiciels en deep learning.

2025-09-09T19:21:24+00:00 ― 11 min lire

Calcul et langage S'attaquer à la confusion des noms dans la génération de texte

Une nouvelle méthode améliore la vérification des faits pour les textes générés par ordinateur avec des noms ambigus.

2025-09-09T17:30:48+00:00 ― 10 min lire

Multimédia Conception de posters efficaces grâce à des metrics simples

Apprends à créer des affiches qui transmettent des messages de manière claire et attrayante.

2025-09-09T08:49:24+00:00 ― 6 min lire

Apprentissage automatique S'attaquer au hacking de récompenses dans l'entraînement de l'IA

Explorer les défis et les solutions du hacking de récompense dans l'entraînement des modèles d'IA.

2025-09-09T06:58:48+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Nouveau cadre pour évaluer les modèles de question-réponse visuelle

Une nouvelle méthode pour évaluer comment les modèles réagissent aux questions liées aux images.

2025-09-09T06:11:24+00:00 ― 6 min lire

Traitement de l'audio et de la parole Présentation d'AV-SUPERB : Une nouvelle référence pour les modèles audio-visuels

AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.

2025-09-08T22:32:35+00:00 ― 7 min lire

Calcul et langage Évaluation des modèles de génération d'expressions référentielles

De nouvelles méthodes améliorent notre façon d'évaluer le texte généré par ordinateur.

2025-09-08T20:18:54+00:00 ― 11 min lire

Intelligence artificielle Évaluation des grands modèles de langage en cybersécurité

Un aperçu détaillé de l'évaluation de CyberMetric sur les experts en cybersécurité, qu'ils soient IA ou humains.

2025-09-08T19:39:24+00:00 ― 11 min lire

Apprentissage automatique Le besoin de désapprentissage machine en IA

Aborder les préoccupations éthiques en enlevant de la mémoire sélective dans les modèles d'IA.

2025-09-08T16:53:30+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la génération de texte en image

Explorer comment les machines créent des images à partir de prompts textuels et s'alignent sur les préférences humaines.

2025-09-08T11:29:36+00:00 ― 6 min lire

Calcul et langage Avancer la personnalisation dans les modèles de langage

Cette étude examine les avantages des réponses personnalisées dans les modèles de langage.

2025-09-08T05:02:30+00:00 ― 6 min lire

Recherche d'informations Stratégies de benchmarking pour les systèmes de recommandation

Une nouvelle approche pour évaluer et comparer les algorithmes de RecSys en utilisant des jeux de données variés.

2025-09-07T16:00:24+00:00 ― 21 min lire

Calcul et langage Améliorer les méthodes d'évaluation des questions-réponses

Un nouveau cadre pour évaluer la justesse des réponses de l'IA avec un jugement semblable à celui des humains.

2025-09-07T13:06:36+00:00 ― 8 min lire

Calcul et langage Améliorer l'éducation scientifique avec des modèles linguistiques

Les modèles de langage visent à améliorer l'apprentissage des sciences en offrant une assistance personnalisée.

2025-09-07T12:27:06+00:00 ― 11 min lire

Apprentissage automatique Évaluation de la détection d'anomalies dans les séries chronologiques avec TimeSeriesBench

Un outil de référence pour améliorer les méthodes de détection d'anomalies dans les séries temporelles.

2025-09-07T10:04:54+00:00 ― 9 min lire

Calcul et langage Biais dans le jugement des modèles de langue

Des recherches montrent des biais importants dans les évaluations des réponses par les humains et les LLM.

2025-09-07T05:12:36+00:00 ― 8 min lire

Calcul et langage Évaluation de l'IA médicale : un nouveau standard pour les Med-MLLMs

Ce benchmark évalue la performance des modèles de language médical dans le domaine de la santé.

2025-09-07T01:47:12+00:00 ― 10 min lire

Calcul et langage Évaluer le raisonnement dans les grands modèles de langage

Un nouveau cadre évalue comment les LLMs raisonnent pour répondre à des questions compliquées.

2025-09-07T00:51:54+00:00 ― 6 min lire