Une nouvelle méthode améliore la précision des réponses aux questions provenant de tableaux en fusionnant deux systèmes.
― 10 min lire
La science de pointe expliquée simplement
Une nouvelle méthode améliore la précision des réponses aux questions provenant de tableaux en fusionnant deux systèmes.
― 10 min lire
Une nouvelle méthode pour créer des distracteurs intéressants dans les évaluations éducatives.
― 7 min lire
Une nouvelle méthode vise à améliorer le texte alt pour les icônes d'applis mobiles afin d'aider les utilisateurs malvoyants.
― 6 min lire
DREAMS simplifie l'apprentissage profond pour les données EEG, en promouvant la transparence et des pratiques éthiques.
― 9 min lire
Un regard sur l'évaluation de la fiabilité des explications de l'IA à travers la sensibilité aux attaques.
― 9 min lire
Les modèles récents améliorent la capacité de l'IA à générer et comprendre différents médias.
― 6 min lire
ARLBench simplifie le réglage des hyperparamètres pour l'apprentissage par renforcement avec des outils de benchmark efficaces.
― 9 min lire
Un modèle pour évaluer la qualité de la segmentation sans références de vérité terrain.
― 10 min lire
Une méthode pour gérer les données de capteurs conflictuelles dans les véhicules autonomes pour améliorer la sécurité.
― 6 min lire
ESPnet-Codec améliore l'entraînement et l'évaluation des codecs neuronaux pour l'audio et la parole.
― 9 min lire
Une méthode en trois étapes pour partager des données en toute sécurité tout en protégeant la vie privée.
― 7 min lire
Nouveau standard comble les lacunes dans l'évaluation des LLM pour la prise de décision clinique.
― 9 min lire
Visualiser des programmes fonctionnels peut simplifier le processus de débogage pour les programmeurs.
― 8 min lire
Explorer comment l'IA générative influence les processus de design d'interaction.
― 6 min lire
Cette étude examine les valeurs dans les textes humains et générés par l'IA pour mieux comprendre.
― 4 min lire
NetworkCommons est un nouvel outil pour étudier les interactions moléculaires.
― 8 min lire
Un nouveau cadre améliore le raisonnement dans les modèles de langage avec des justifications de qualité.
― 8 min lire
Une étude compare des modèles d'IA sur leur capacité à comprendre les relations spatiales.
― 8 min lire
Examiner les vulnérabilités et les défenses des nouveaux modèles d'IA.
― 8 min lire
Examiner comment les modèles détectent les commentaires toxiques dans différents dialectes de langue.
― 8 min lire
MTFusion combine images et texte pour créer des modèles 3D avancés.
― 7 min lire
Un aperçu des admissions holistiques et de leur impact sur les futurs médecins.
― 8 min lire
Une nouvelle méthode pour créer des matériaux réalistes améliore la flexibilité pour les artistes et les designers.
― 7 min lire
Une nouvelle approche s'attaque efficacement aux biais dans les modèles image-texte.
― 8 min lire
Évaluer l'efficacité des modèles linguistiques dans les tâches de codage avec de nouveaux benchmarks.
― 7 min lire
Comprendre comment les Graphes de Connaissances peuvent réduire les fausses infos dans les réponses de l'IA.
― 7 min lire
Une nouvelle façon d'évaluer les modèles de décision de l'IA en utilisant des cartes d'attribution.
― 8 min lire
Examiner comment les humains et l'IA peuvent bosser ensemble efficacement.
― 12 min lire
Un aperçu de comment les LLMs améliorent les processus d'évaluation tout en affrontant des défis clés.
― 8 min lire
Cette étude examine à quel point les LLM évaluent la créativité dans le Test des Usages Alternatifs.
― 6 min lire
STAR automatise la création de modèles d'IA pour des résultats plus intelligents et plus rapides.
― 8 min lire
ER 2Score améliore l'évaluation de la qualité des rapports de radiologie automatisés.
― 6 min lire
Transformer des prompts textuels en vidéos réalistes en intégrant des lois physiques.
― 7 min lire
Les grands modèles de langage sont-ils des évaluateurs fiables ? Exploration de la cohérence de leurs évaluations.
― 9 min lire
ChemTEB aide à améliorer le traitement des textes chimiques en évaluant des modèles spécialisés.
― 9 min lire
AgriBench évalue des outils IA pour aider à prendre des décisions agricoles plus intelligentes.
― 9 min lire
Découvrez comment SelfPrompt aide à évaluer efficacement la puissance des modèles de langage.
― 4 min lire
Apprends comment le sandbagging influence les évaluations de l'IA et des astuces pour le détecter.
― 7 min lire
Découvrez comment les chercheurs simplifient les textes en cinghalais pour mieux comprendre.
― 8 min lire
TDD-Bench améliore la génération de tests automatisés pour les développeurs qui utilisent les méthodes TDD.
― 9 min lire