Cet article explore comment les LLM génèrent et affinent des hypothèses scientifiques à partir des données existantes.
― 10 min lire
La science de pointe expliquée simplement
Cet article explore comment les LLM génèrent et affinent des hypothèses scientifiques à partir des données existantes.
― 10 min lire
KGExplainer améliore la transparence dans la complétion des graphes de connaissances grâce à des explications significatives.
― 6 min lire
Une nouvelle approche pour générer des images détaillées de personnes dans des scènes complexes.
― 8 min lire
Une revue des ensembles de données axés sur l'amélioration de la sécurité des LLM.
― 9 min lire
Révolutionner la performance des agents grâce à l'évaluation et à l'accumulation d'expérience.
― 8 min lire
Un focus sur les méthodes pour évaluer et améliorer la performance des agents numériques.
― 4 min lire
Une nouvelle méthode utilise des LLM pour améliorer l'efficacité de la réparation de programmes.
― 7 min lire
Des recherches montrent comment l'auto-réflexion affecte la performance des modèles de langage selon différents types de questions.
― 7 min lire
Explorer les concepts clés en logique et en informatique pour un raisonnement efficace.
― 8 min lire
Un aperçu de l'utilisation des modèles de langage pour évaluer la satisfaction des exigences logicielles.
― 8 min lire
Un nouveau benchmark révèle des lacunes dans la compréhension visuelle des grands modèles de langage.
― 9 min lire
Analyser comment le bruit affecte l'appariement des étudiants et des universités dans les processus d'admission.
― 8 min lire
Utiliser des mécanismes de rétroaction pour améliorer les résumés scientifiques générés par les LLM.
― 10 min lire
Le nouveau dataset Square-10M améliore carrément les capacités de questionnement visuel en open-source.
― 9 min lire
Cet article présente une méthode pour générer des scénarios de test à partir de exigences en langage naturel.
― 10 min lire
Cette méthode améliore l'extraction de données des pages web en utilisant des règles structurées.
― 6 min lire
Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.
― 7 min lire
La compétition CHC a mis en avant les avancées dans les solveurs et leurs applications dans la vérification de programmes.
― 7 min lire
Cette étude examine des systèmes automatiques pour fournir des retours sur les essais en utilisant des modèles de langue.
― 8 min lire
Les données synthétiques offrent des solutions rentables tout en garantissant la vie privée et en réduisant les biais.
― 8 min lire
Un nouveau référentiel évalue la compréhension des modèles de langage sur les significations et les relations des mots.
― 7 min lire
De nouvelles métriques améliorent l'évaluation des systèmes d'extraction d'informations dans les documents manuscrits.
― 8 min lire
Un cadre pour évaluer les stratégies d'IA dans des environnements compétitifs et coopératifs.
― 8 min lire
Évaluer la fiabilité des résumés produits par l'IA pour améliorer la maintenance des logiciels.
― 9 min lire
Examiner comment ChatGPT impacte le système de santé et ses usages potentiels.
― 6 min lire
Les modèles DynaMo génèrent du texte plus vite et avec une meilleure qualité grâce à la prédiction multi-token.
― 7 min lire
Un nouveau jeu de données améliore la génération des sections de travaux connexes dans les articles scientifiques.
― 11 min lire
TREC iKAT vise à améliorer les interactions avec les agents conversationnels grâce à des dialogues personnalisés.
― 9 min lire
SCRABLE propose des solutions automatisées pour gérer efficacement les avis d'applis.
― 6 min lire
Évaluer les capacités et les défis des modèles avancés de compréhension vidéo.
― 7 min lire
Cette étude analyse l'efficacité des LLM pour évaluer les explications générées par l'IA.
― 9 min lire
Un nouveau cadre évalue à quel point les modèles de langue aident les experts avec les tâches d'écriture.
― 7 min lire
PEAVS analyse comment l'audio et la vidéo fonctionnent ensemble pour offrir de meilleures expériences aux spectateurs.
― 9 min lire
Une méthode rapide pour évaluer la performance d'un DNN après un nouvel entraînement.
― 8 min lire
Les autoencodeurs sparses améliorent l'interprétabilité des systèmes d'IA et leurs processus de prise de décision.
― 9 min lire
Un aperçu de comment les modèles d'IA comprennent les connaissances essentielles du monde.
― 7 min lire
Une nouvelle référence évalue la toxicité dans les grands modèles de langage à travers différentes langues.
― 10 min lire
Cet article parle de la nécessité d'avoir de meilleures pratiques d'évaluation dans la recherche sur le fuzzing.
― 7 min lire
Cette étude évalue les méthodes de saillance en NLP à travers une évaluation humaine.
― 11 min lire
Présentation de PQAH pour mieux comprendre les cartes thermiques de l'IA et leur évaluation.
― 10 min lire