Nouveau jeu de données améliore l'évaluation des modèles multilingues dans diverses langues.
― 9 min lire
La science de pointe expliquée simplement
Nouveau jeu de données améliore l'évaluation des modèles multilingues dans diverses langues.
― 9 min lire
La métrique SQuArE améliore l'évaluation des systèmes de Q&R grâce à plusieurs références de réponse.
― 7 min lire
De nouvelles méthodes améliorent l'évaluation des performances des petits objets en WSSS.
― 7 min lire
Un nouveau cadre pour évaluer les systèmes RAG sans références humaines.
― 7 min lire
Présentation d'une méthode qui mesure la qualité des réponses à différents niveaux de détail.
― 8 min lire
Cette étude propose de nouvelles méthodes pour évaluer les réponses dans la question-réponse automatique.
― 9 min lire
De nouvelles méthodes améliorent l'évaluation des explications des modèles d'IA.
― 8 min lire
Un nouveau jeu de données et une méthode améliorent la génération de questions par les modèles de langage.
― 8 min lire
Nouveau jeu de données améliore la vérification des étapes de raisonnement dans les modèles d'IA.
― 9 min lire
Cet article présente une référence pour évaluer les modèles de langage large avec des tâches complexes.
― 8 min lire
Une étude sur comment ChatGPT utilise des caractéristiques linguistiques et de vocabulaire.
― 13 min lire
Un aperçu détaillé de l'évaluation de CyberMetric sur les experts en cybersécurité, qu'ils soient IA ou humains.
― 11 min lire
Une nouvelle méthode évalue l'efficacité de l'édition de modèles pour générer des textes plus longs.
― 11 min lire
Un nouveau cadre pour évaluer la justesse des réponses de l'IA avec un jugement semblable à celui des humains.
― 8 min lire
Nouveau jeu de données améliore les méthodes d'évaluation pour l'oubli machine dans la génération d'images.
― 7 min lire
FanOutQA aide à évaluer les modèles de langage sur des questions multi-étapes difficiles en utilisant des données structurées.
― 7 min lire
Un nouvel outil génère des instances d'hallucinations visuelles diverses pour améliorer l'exactitude de l'IA.
― 7 min lire
Cet article parle d'un nouveau cadre pour évaluer les hallucinassions dans les LVLMs.
― 9 min lire
Une méthode pour évaluer en continu les modèles en apprentissage automatique afin d'éviter le surapprentissage.
― 7 min lire
Une nouvelle méthode améliore la vérification des faits dans les systèmes de génération augmentée par la récupération.
― 10 min lire
Améliorer la compréhension des intentions des utilisateurs à travers la négation et l'implicature.
― 7 min lire
Une analyse de la compréhension des règles de reconnaissance d'entités par les modèles de langage.
― 8 min lire
Cette recherche évalue l'utilisation des LLM pour des scénarios réalistes de voitures autonomes.
― 10 min lire
Un cadre pour améliorer la performance du NLP à travers différents dialectes de langue.
― 5 min lire
Évaluer les LLM sur leur capacité à traiter de longs textes en littérature.
― 7 min lire
Un nouveau cadre évalue à quel point les LLM sont fiables en tant qu'assistants biomédicaux.
― 6 min lire
Une étude met en avant l'impact de la contamination des données sur les évaluations des modèles de code.
― 8 min lire
Un nouveau jeu de données améliore l'évaluation des connaissances moléculaires dans les modèles de langage.
― 10 min lire
SPHINX-V améliore la capacité de l'IA à interpréter les images grâce à l'interaction des utilisateurs.
― 7 min lire
BEAR améliore l'évaluation des connaissances relationnelles dans les modèles de langue.
― 10 min lire
Cette étude examine comment les modèles de langue gèrent différentes expressions des mêmes problèmes de raisonnement.
― 6 min lire
Un nouveau jeu de données évalue comment les modèles de langage gèrent le contenu nuisible à travers les cultures.
― 7 min lire
Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.
― 7 min lire
Une évaluation de la façon dont les LLM se souviennent des informations factuelles et des facteurs impliqués.
― 7 min lire
Cette étude propose des méthodes améliorées pour évaluer les modèles de texte à image.
― 8 min lire
Une étude évaluant des méthodes d'apprentissage par few-shot pour la classification de la langue polonaise.
― 6 min lire
De nouvelles métriques améliorent l'évaluation des systèmes d'extraction d'informations dans les documents manuscrits.
― 8 min lire
WorkBench teste la capacité des agents à réaliser des tâches de bureau réalistes avec une méthode d'évaluation unique.
― 8 min lire
Évaluer comment les LLM s'adaptent à de nouvelles infos et biais.
― 9 min lire
Une nouvelle méthode pour évaluer l'alignement des modèles de langage avec les valeurs humaines.
― 9 min lire