Une nouvelle approche améliore les comparaisons des algorithmes d'apprentissage par renforcement dans différents environnements.
― 9 min lire
La science de pointe expliquée simplement
Une nouvelle approche améliore les comparaisons des algorithmes d'apprentissage par renforcement dans différents environnements.
― 9 min lire
Un nouveau critère vise à améliorer l'entraînement des robots dans des environnements domestiques réalistes.
― 8 min lire
Un nouveau cadre de référence améliore l'efficacité pour évaluer les modèles de langage.
― 7 min lire
Une nouvelle approche pour améliorer l'évaluation des tâches de codage pour les modèles de langage.
― 8 min lire
La recherche examine l'efficacité des repères actuels dans les tâches de visualisation.
― 6 min lire
Un nouveau cadre évalue la difficulté des tâches de codage pour les grands modèles de langage.
― 11 min lire
Une étude évalue les compétences de raisonnement des grands modèles de langage avec des questions complexes.
― 7 min lire
Un nouveau cadre pour évaluer efficacement les modèles vision-langage.
― 8 min lire
Présentation d'un outil pour évaluer les méthodes de détection d'anomalies non supervisées dans l'apprentissage fédéré.
― 9 min lire
Évaluer les modèles d'IA pour leur capacité à suivre les procédures de labo.
― 8 min lire
Un aperçu des améliorations récentes dans les outils de comptage de modèles et leurs applications pratiques.
― 7 min lire
Un nouveau standard améliore l'évaluation des systèmes de reconnaissance des émotions dans la parole, toutes langues et émotions confondues.
― 8 min lire
Cet article examine l'efficacité des modèles 3D basés sur des images dans l'estimation de pose.
― 10 min lire
De nouveaux repères testent le raisonnement causal de l'IA en utilisant seulement des images.
― 9 min lire
Une nouvelle approche pour évaluer les LLM avec des ensembles d'évaluation variés.
― 8 min lire
Un nouveau critère évalue les agents de modèles linguistiques pour gérer l'analyse des données scientifiques.
― 10 min lire
Une analyse des LLM et de leurs différences par rapport à l'acquisition du langage humain.
― 10 min lire
Étudier comment des cylindres en mouvement créent des ondes sonores dans les fluides pour des applications pratiques.
― 6 min lire
Un nouveau repère évalue comment les LLM apprennent à travers les interactions.
― 6 min lire
O-HuBERT améliore la reconnaissance vocale en séparant le contenu et l'information expressive.
― 7 min lire
Présentation de PermitQA, un benchmark pour évaluer les systèmes RAG dans l'énergie éolienne.
― 9 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour l'hindi en utilisant des techniques de pseudo-étiquetage.
― 6 min lire
Un benchmark multi-domaine évalue les capacités de génération de code des LLM dans différents domaines.
― 8 min lire
Une nouvelle méthode teste comment l'IA interprète des graphiques trompeurs.
― 7 min lire
Un nouveau projet de référence vise à évaluer les capacités de résolution des problèmes Java.
― 7 min lire
Une nouvelle approche simplifie la sécurité et l'utilité dans l'entraînement des modèles de langage.
― 12 min lire
Améliorer la façon dont les machines aident les utilisateurs grâce à de meilleures interactions et mesures de réponse.
― 6 min lire
Cette étude examine l'efficacité des LLMs en musicologie et leur fiabilité.
― 7 min lire
Un outil complet pour évaluer les systèmes de calcul haute performance.
― 8 min lire
Un système pour enregistrer et rejouer des actions dans des applis WebAssembly.
― 8 min lire
Exploration des techniques d'apprentissage automatique pour un partitionnement efficace de la conception VLSI.
― 7 min lire
VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.
― 6 min lire
OpenACE fournit une référence équitable pour évaluer les codecs audio dans différentes conditions.
― 6 min lire
Efforts pour améliorer la technologie de la parole pour la langue Faetar, qui est sous-resources.
― 6 min lire
Ce papier évalue la capacité des VLM à raisonner sur les tailles et les distances.
― 7 min lire
Enquête sur comment les agents IA reproduisent des résultats scientifiques grâce à un nouveau benchmark.
― 7 min lire
TDC-2 améliore la recherche dans le développement de médicaments grâce à un meilleur accès aux données et des modèles multimodaux.
― 6 min lire
LightSABRE améliore la performance des circuits quantiques avec des améliorations de vitesse et de qualité.
― 5 min lire
Les chercheurs en physique des particules optimisent des logiciels pour différents ressources informatiques.
― 11 min lire
Cette approche facilite le choix des ensembles de données de préentraînement efficaces pour les modèles de langue.
― 12 min lire