Un nouveau jeu de données améliore la précision dans l'évaluation des résumés d'histoires générés par des modèles de langage.
― 6 min lire
La science de pointe expliquée simplement
Un nouveau jeu de données améliore la précision dans l'évaluation des résumés d'histoires générés par des modèles de langage.
― 6 min lire
Une nouvelle méthode pour évaluer les agents d'analyse de données afin d'obtenir de meilleures idées pour les affaires.
― 7 min lire
Un défi pour améliorer la compréhension des interactions humaines par les robots.
― 8 min lire
Un nouveau cadre vise à automatiser les revues de papiers pour obtenir des retours de meilleure qualité.
― 9 min lire
Présentation de DictaLM 2.0 et DictaLM 2.0-Instruct pour une meilleure traitement de la langue hébraïque.
― 8 min lire
Cette étude examine à quel point les modèles représentent bien les cultures différentes.
― 11 min lire
Un projet axé sur l'amélioration de la génération d'histoires en arabe en utilisant des modèles avancés.
― 9 min lire
Une nouvelle approche pour évaluer les grands modèles de langage afin d'obtenir de meilleures idées sur leurs performances.
― 6 min lire
La recherche présente de nouvelles méthodes pour évaluer les systèmes de reconnaissance vocale en polonais.
― 8 min lire
Découvrez comment les données synthétiques aident les détaillants à protéger la vie privée des clients tout en obtenant des insights.
― 9 min lire
DocBench évalue des systèmes basés sur des LLM pour lire et répondre à différents formats de documents.
― 5 min lire
Un cadre pour évaluer les capacités des LLM dans les tâches liées aux données avec des interprètes de code.
― 6 min lire
Examiner l'impact des LLM sur les stéréotypes sociaux et comment améliorer les résultats.
― 7 min lire
Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.
― 8 min lire
Analyser l'importance et les difficultés d'évaluer les modèles d'IA multimodaux.
― 8 min lire
Un nouveau jeu de données pour améliorer la performance des réponses aux questions avec de longues réponses rédigées par des humains.
― 8 min lire
Les modèles Phi-3 se concentrent sur la sécurité et l'alignement avec les valeurs humaines.
― 8 min lire
Examiner les problèmes avec les grands modèles de langage pour prédire les éléments manquants d'une liste.
― 9 min lire
Une étude comparant les modèles d'IA et les évaluations humaines des résumés scientifiques.
― 7 min lire
Un nouveau benchmark évalue les modèles de langage sur des défis de codage scientifique dans plusieurs domaines.
― 7 min lire
Check-Eval utilise des listes de contrôle pour améliorer l'évaluation de la qualité des textes.
― 9 min lire
ProtoDep propose des infos claires pour détecter la dépression grâce à l'analyse des réseaux sociaux.
― 10 min lire
Cette étude analyse la performance des circuits de réseaux neuronaux et leur fiabilité.
― 5 min lire
Un nouveau cadre pour créer des images de haute qualité basées sur des mises en page spécifiques.
― 7 min lire
HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.
― 12 min lire
Une nouvelle méthode améliore la précision et l'efficacité du suivi de points dans le traitement vidéo.
― 6 min lire
Un outil améliore la catégorisation des actions, aidant à la productivité des devs dans leurs tâches.
― 6 min lire
Une nouvelle méthode améliore la conception structurelle en réduisant efficacement le stress.
― 7 min lire
Un nouveau benchmark évalue les LLMs pour leur précision factuelle.
― 7 min lire
Une nouvelle approche pour évaluer plus rapidement les ensembles de titres sans références humaines.
― 9 min lire
Une nouvelle approche pour évaluer les agents persona avec des modèles de langage.
― 7 min lire
Évaluer les modèles d'apprentissage automatique pour garantir l'équité entre les différentes populations.
― 7 min lire
Dallah supporte les dialectes arabes, améliorant la communication dans les textes et les images.
― 7 min lire
Un kit d'outils conçu pour évaluer au mieux les interactions humain-bot.
― 6 min lire
Utiliser des marques de pertinence générées par IA pour évaluer efficacement les systèmes de recherche d'information.
― 10 min lire
Une nouvelle approche améliore les comparaisons des algorithmes d'apprentissage par renforcement dans différents environnements.
― 9 min lire
Un nouveau critère pour évaluer les modèles qui analysent la musique et le langage.
― 8 min lire
Explore différents cadres et méthodes pour évaluer efficacement de grands modèles de langage.
― 8 min lire
Une nouvelle approche pour évaluer la fiabilité des méthodes qui expliquent la prise de décision de l'IA.
― 10 min lire
AxiomVision propose une nouvelle façon d'analyser les vidéos, améliorant les performances dans des conditions changeantes.
― 8 min lire