Des chercheurs analysent la prévisibilité des performances des modèles linguistiques à mesure que les ressources d'entraînement augmentent.
― 8 min lire
La science de pointe expliquée simplement
Des chercheurs analysent la prévisibilité des performances des modèles linguistiques à mesure que les ressources d'entraînement augmentent.
― 8 min lire
Un aperçu des attaques par porte dérobée et des défenses dans les modèles d'apprentissage profond.
― 8 min lire
Ce papier évalue l'efficacité du code généré à partir de différents modèles.
― 8 min lire
Cet article présente une référence pour évaluer les modèles de langage large avec des tâches complexes.
― 8 min lire
Cette étude évalue les capacités des grands modèles de langage dans des scénarios de planification complexes.
― 8 min lire
La recherche étudie l'utilisation des VLM pour évaluer les actions des robots.
― 9 min lire
Explorer le rôle des grands modèles de langage dans la science moléculaire.
― 10 min lire
Explorer des méthodes pour améliorer les performances des robots dans des environnements imprévisibles.
― 6 min lire
AV-SUPERB évalue les modèles audio et visuels sur différentes tâches pour une meilleure performance.
― 7 min lire
De nouveaux outils améliorent la façon dont les systèmes récupèrent des informations à partir de longs documents.
― 6 min lire
Ce benchmark évalue la performance des modèles de language médical dans le domaine de la santé.
― 10 min lire
Une méthode pour garder les modèles d'IA à jour en fonction des événements du monde réel.
― 8 min lire
Nouveaux tests de référence MLLMs sur des tâches de réseaux sociaux comme la désinformation et le discours de haine.
― 13 min lire
RobotScript améliore la façon dont les robots réalisent des tâches à partir du langage naturel.
― 9 min lire
Une nouvelle façon de dénicher des menaces cachées dans la conception matérielle.
― 7 min lire
De nouvelles méthodes visent à mieux évaluer les compétences en raisonnement des modèles de langage IA.
― 8 min lire
DyPyBench propose un ensemble varié de projets pour l'analyse dynamique en Python.
― 8 min lire
La capacité de l'IA à transformer des designs en code est en train de révolutionner le développement web.
― 10 min lire
Une étude révèle un chevauchement de données important qui affecte les évaluations des modèles de langage dans la génération de code.
― 8 min lire
Évaluer les performances des LLM à travers un benchmark dédié à l'analyse bio-image.
― 8 min lire
Une nouvelle méthode pour évaluer les outils de traitement du langage montre des signes d'amélioration.
― 7 min lire
Une méthode pour évaluer la transférabilité des modèles pré-entraînés pour la détection d'objets.
― 6 min lire
Une ressource conçue pour aider les robots à apprendre des tâches quotidiennes efficacement.
― 8 min lire
Un aperçu de l'évaluation des capacités de prise de décision des grands modèles de langage.
― 9 min lire
Un cadre pour améliorer la performance du NLP à travers différents dialectes de langue.
― 5 min lire
Un nouveau benchmark met en lumière les forces et les faiblesses des VLLMs dans des tâches multimodales.
― 7 min lire
Des experts se réunissent pour discuter des simulations de Monte Carlo et des améliorations des GPU.
― 9 min lire
De nouveaux repères révèlent les forces et les faiblesses des modèles de langage de codage.
― 4 min lire
Meerkat-7B fixe une nouvelle norme pour les modèles de langage médical open-source.
― 8 min lire
De nouvelles méthodes améliorent la synthèse vidéo en utilisant de grands ensembles de données et des modèles avancés.
― 9 min lire
Des recherches montrent les défis que les LLM rencontrent pour comprendre des textes longs et proposent de nouveaux critères d'évaluation.
― 8 min lire
Explorer la conception et les avantages d'un PMU pour les processeurs RISC-V utilisés dans l'espace.
― 6 min lire
Cette étude examine les problèmes de qualité dans les invites pour les modèles de génération de code.
― 6 min lire
Un nouveau benchmark révèle des lacunes dans la compréhension visuelle des grands modèles de langage.
― 9 min lire
Un nouveau critère améliore la manière dont on évalue les LVLMs et leur précision.
― 7 min lire
La compétition CHC a mis en avant les avancées dans les solveurs et leurs applications dans la vérification de programmes.
― 7 min lire
Cet article explore comment améliorer la compréhension des réponses indirectes.
― 7 min lire
Une étude évaluant des méthodes d'apprentissage par few-shot pour la classification de la langue polonaise.
― 6 min lire
Les modèles PatentGPT sont conçus pour répondre à des défis uniques dans la propriété intellectuelle.
― 5 min lire
Une étude sur l'efficacité des outils SAST pour les contrats intelligents.
― 10 min lire