Cet article examine des moyens d'améliorer les capacités de planification dans les grands modèles de langage.
― 10 min lire
La science de pointe expliquée simplement
Cet article examine des moyens d'améliorer les capacités de planification dans les grands modèles de langage.
― 10 min lire
DetectBench évalue les LLMs sur leur capacité à détecter des preuves cachées dans des tâches de raisonnement.
― 7 min lire
Examiner comment l’activation des neurones améliore le raisonnement arithmétique dans les grands modèles de langage.
― 12 min lire
Un nouveau modèle génère de la poésie tchèque avec une meilleure rime et un meilleur rythme.
― 9 min lire
Un nouveau benchmark évalue les compétences en raisonnement des modèles de langage.
― 11 min lire
Une étude sur comment les modèles de langage génèrent des raisons convaincantes pour évaluer des arguments.
― 7 min lire
Cette étude évalue l'honnêteté des LLM dans trois domaines clés.
― 7 min lire
Cet article explore comment les adversaires impactent le travail d'équipe entre les modèles de langue.
― 15 min lire
Une étude complète sur la performance des modèles linguistiques dans 10 langues indiennes.
― 9 min lire
Une nouvelle méthode améliore la réparation de code pour les langages de programmation sous-utilisés.
― 9 min lire
Explorer comment les puits d'attention impactent la performance des modèles de langage et introduire une technique d'étalonnage.
― 7 min lire
RankAdaptor optimise le fine-tuning des modèles IA élagués, améliorant les performances de manière efficace.
― 10 min lire
Une étude sur PlagBench et son rôle dans la détection du plagiat dans les résultats des LLM.
― 6 min lire
Nouveau jeu de données évalue la capacité des LLM à des tâches de raisonnement logique complexes.
― 9 min lire
Cette recherche étudie comment les compétences en raisonnement se transfèrent d'une langue à l'autre dans les modèles de langage.
― 11 min lire
Cet article parle de comment les modèles d'IA apprennent de leurs erreurs grâce à l'auto-correction.
― 7 min lire
Cette étude évalue à quel point les LLMs raisonnent sur les directions cardinales.
― 6 min lire
Cette étude évalue comment les LLM gèrent la prise de décision dans un cadre de jeu.
― 10 min lire
Une étude révèle comment les traits des utilisateurs affectent les réponses et l'exactitude des LLM.
― 10 min lire
CharED combine des modèles de langage pour de meilleures performances sans vocabulaire partagé.
― 6 min lire
RAGBench propose un dataset complet pour évaluer les systèmes de Génération Augmentée par Récupération.
― 8 min lire
Explorer les problèmes de justice dans les modèles de langage AI et leurs implications.
― 11 min lire
Présentation d'un outil pour améliorer la sécurité dans les interactions avec les modèles de langage.
― 8 min lire
Cet article explore la détection des erreurs dans les outils utilisés par les modèles de langue.
― 7 min lire
Cet article analyse les structures répétitives dans les textes générés par des modèles de langage.
― 10 min lire
Une nouvelle référence évalue dans quelle mesure les modèles de langage suivent plusieurs instructions de manière séquentielle.
― 5 min lire
Le dataset MalAlgoQA évalue le raisonnement des grands modèles de langage dans des scénarios contrefactuels.
― 7 min lire
MathCAMPS propose une nouvelle façon d'évaluer le raisonnement mathématique dans les modèles linguistiques.
― 13 min lire
Ce boulot se concentre sur une meilleure représentation des chiffres en utilisant des embeddings pour des prédictions plus précises.
― 10 min lire
Explorer l'efficacité des LLMs dans la prise de décision à travers des scénarios de Dueling Bandits.
― 10 min lire
Un nouveau repère pour évaluer les grands modèles de langage dans les tests d'hypothèses.
― 9 min lire
CRAB améliore les tests pour les modèles de langage dans des environnements réels.
― 8 min lire
Affiner des gros modèles de langage directement sur les smartphones tout en protégeant les données des utilisateurs.
― 8 min lire
Un aperçu de l'interprétabilité mécaniste dans les modèles de langage basés sur les transformateurs.
― 10 min lire
Explorer comment le changement de perspective fait évoluer les opinions à travers les discussions communautaires.
― 5 min lire
Des outils automatisés comme les LLM aident à vérifier les affirmations efficacement.
― 8 min lire
Cette approche utilise l'auto-évaluation pour se protéger contre les résultats nuisibles dans les modèles de langue.
― 2 min lire
Étudier comment la quantification affecte les performances dans différentes langues.
― 7 min lire
DCoT améliore la performance des modèles de langage grâce à plusieurs chemins de raisonnement.
― 10 min lire
Une étude révèle comment les significations des mots évoluent avec le contexte et le temps en utilisant des embeddings de mots.
― 6 min lire