VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.
― 8 min lire
La science de pointe expliquée simplement
VideoVista propose une évaluation complète pour les modèles de question-réponse vidéo.
― 8 min lire
Cet article explore des méthodes pour améliorer la fiabilité des artefacts de recherche en informatique.
― 10 min lire
Les modèles GLM-4 montrent de meilleures capacités dans la compréhension et la génération de langage.
― 10 min lire
Une étude sur l'utilisation des LLMs pour juger d'autres LLMs et ses implications.
― 9 min lire
Une étude sur comment les modèles de langage génèrent des raisons convaincantes pour évaluer des arguments.
― 7 min lire
Deux nouveaux modèles visent à améliorer l'accès à la technologie pour les locuteurs galiciens.
― 7 min lire
Examiner les difficultés de traduire un langage métaphorique en traduction automatique.
― 8 min lire
DF40 propose une approche complète pour améliorer les méthodes de détection des deepfakes.
― 8 min lire
Cette étude évalue l'honnêteté des LLM dans trois domaines clés.
― 7 min lire
Découvrez comment les entreprises améliorent leurs systèmes de questions-réponses pour un meilleur support utilisateur.
― 5 min lire
Une étude sur comment l'IA comprend les algorithmes et leurs implications.
― 8 min lire
Une nouvelle métrique améliore l'évaluation des modèles de classification de texte dans différents domaines.
― 9 min lire
La contamination des données affecte grave l'évaluation des grands modèles de langue.
― 7 min lire
Une nouvelle méthode pour évaluer les LLMs s'aligne avec les valeurs humaines.
― 8 min lire
Un nouvel outil pour évaluer les biais dans les grands modèles de vision-langage.
― 8 min lire
Une étude évalue comment les machines créent de la poésie variée et créative comparée à celle des humains.
― 8 min lire
Une nouvelle méthode améliore notre façon d'évaluer les contre-narrations à la haine.
― 8 min lire
InternLM-Law améliore les réponses à diverses questions juridiques chinoises grâce à une formation avancée.
― 9 min lire
Explorer comment les profils d'utilisateurs améliorent la personnalisation dans les modèles de langue.
― 8 min lire
Des recherches montrent que les modèles galèrent avec les dépendances d'étapes dans les recettes de cuisine.
― 7 min lire
Ce papier présente une méthode pour évaluer les modèles de langage à travers différents prompts.
― 8 min lire
Une nouvelle méthode aborde les différences régionales dans l'évaluation des biais de genre.
― 8 min lire
Le dataset M2Lingual améliore les capacités de suivi des instructions dans plusieurs langues.
― 7 min lire
Cet article présente une nouvelle méthode pour évaluer efficacement les modèles de texte à image.
― 8 min lire
Cette étude évalue la performance des modèles linguistiques en utilisant les tests INVALSI italiens.
― 10 min lire
RAGBench propose un dataset complet pour évaluer les systèmes de Génération Augmentée par Récupération.
― 8 min lire
Dysca introduit une nouvelle façon d'évaluer la performance des LVLM en utilisant des données synthétiques.
― 9 min lire
Un aperçu des méthodes modernes en conception d'ingénierie pour l'efficacité et la performance.
― 9 min lire
Une nouvelle approche améliore l'extraction d'événements causaux en utilisant une évaluation centrée sur l'humain.
― 7 min lire
Évaluer comment le fait de faire confiance aux experts humains affecte la précision des prédictions dans les modèles d'IA.
― 10 min lire
Présentation d'une nouvelle méthode pour de meilleures solutions dans des tâches complexes en ingénierie et en robotique.
― 7 min lire
Une étude évaluant la qualité des jeux de données pour identifier les discours de haine en ligne.
― 10 min lire
Une nouvelle méthode mesure comment les modèles linguistiques adaptent leurs croyances avec de nouvelles preuves.
― 11 min lire
Nouveau repère améliore l'évaluation des modèles multimodaux en minimisant les biais.
― 8 min lire
GraphArena évalue la performance des LLM sur des problèmes de graphes en utilisant des données du monde réel.
― 8 min lire
Explore une méthode équitable pour partager le mérite dans les projets de groupe.
― 7 min lire
Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.
― 9 min lire
CRAB améliore les tests pour les modèles de langage dans des environnements réels.
― 8 min lire
Cet article examine l'impact des changements temporels sur les évaluations des systèmes de recherche d'information.
― 7 min lire
Présentation de FairMedFM pour évaluer l'équité des modèles de fondation dans le secteur de la santé.
― 8 min lire