Un aperçu des améliorations récentes dans les outils de comptage de modèles et leurs applications pratiques.
― 7 min lire
La science de pointe expliquée simplement
Un aperçu des améliorations récentes dans les outils de comptage de modèles et leurs applications pratiques.
― 7 min lire
Un nouveau standard améliore l'évaluation des systèmes de reconnaissance des émotions dans la parole, toutes langues et émotions confondues.
― 8 min lire
Cet article examine l'efficacité des modèles 3D basés sur des images dans l'estimation de pose.
― 10 min lire
De nouveaux repères testent le raisonnement causal de l'IA en utilisant seulement des images.
― 9 min lire
Une nouvelle approche pour évaluer les LLM avec des ensembles d'évaluation variés.
― 8 min lire
Un nouveau critère évalue les agents de modèles linguistiques pour gérer l'analyse des données scientifiques.
― 10 min lire
Une analyse des LLM et de leurs différences par rapport à l'acquisition du langage humain.
― 10 min lire
Étudier comment des cylindres en mouvement créent des ondes sonores dans les fluides pour des applications pratiques.
― 6 min lire
Un nouveau repère évalue comment les LLM apprennent à travers les interactions.
― 6 min lire
O-HuBERT améliore la reconnaissance vocale en séparant le contenu et l'information expressive.
― 7 min lire
Présentation de PermitQA, un benchmark pour évaluer les systèmes RAG dans l'énergie éolienne.
― 9 min lire
Une nouvelle méthode améliore la reconnaissance vocale pour l'hindi en utilisant des techniques de pseudo-étiquetage.
― 6 min lire
Un benchmark multi-domaine évalue les capacités de génération de code des LLM dans différents domaines.
― 8 min lire
Une nouvelle méthode teste comment l'IA interprète des graphiques trompeurs.
― 7 min lire
Un nouveau projet de référence vise à évaluer les capacités de résolution des problèmes Java.
― 7 min lire
Une nouvelle approche simplifie la sécurité et l'utilité dans l'entraînement des modèles de langage.
― 12 min lire
Améliorer la façon dont les machines aident les utilisateurs grâce à de meilleures interactions et mesures de réponse.
― 6 min lire
Cette étude examine l'efficacité des LLMs en musicologie et leur fiabilité.
― 7 min lire
Un outil complet pour évaluer les systèmes de calcul haute performance.
― 8 min lire
Un système pour enregistrer et rejouer des actions dans des applis WebAssembly.
― 8 min lire
Exploration des techniques d'apprentissage automatique pour un partitionnement efficace de la conception VLSI.
― 7 min lire
VisScience teste de gros modèles sur le raisonnement scientifique en utilisant du texte et des images.
― 6 min lire
OpenACE fournit une référence équitable pour évaluer les codecs audio dans différentes conditions.
― 6 min lire
Efforts pour améliorer la technologie de la parole pour la langue Faetar, qui est sous-resources.
― 6 min lire
Ce papier évalue la capacité des VLM à raisonner sur les tailles et les distances.
― 7 min lire
Enquête sur comment les agents IA reproduisent des résultats scientifiques grâce à un nouveau benchmark.
― 7 min lire
TDC-2 améliore la recherche dans le développement de médicaments grâce à un meilleur accès aux données et des modèles multimodaux.
― 6 min lire
LightSABRE améliore la performance des circuits quantiques avec des améliorations de vitesse et de qualité.
― 5 min lire
Les chercheurs en physique des particules optimisent des logiciels pour différents ressources informatiques.
― 11 min lire
Cette approche facilite le choix des ensembles de données de préentraînement efficaces pour les modèles de langue.
― 12 min lire
Une nouvelle approche pour évaluer les benchmarks de l'IA en matière de compréhension culturelle.
― 10 min lire
Une nouvelle méthode génère des simulations complètes en code à partir d'entrées en langage naturel.
― 11 min lire
Cet article évalue à quel point les LLMs génèrent des cas de test pour des programmes Java.
― 10 min lire
Des recherches montrent des faiblesses dans la détection de la toxicité en ligne en utilisant des techniques d'art ASCII.
― 8 min lire
Explorer l'écart de performance des modèles généraux dans les tâches financières.
― 8 min lire
Découvrez les dernières améliorations dans la technologie de traitement de la langue arabe et son impact.
― 7 min lire
Apprends comment la technologie aide à retoucher les petits détails des images efficacement.
― 5 min lire
Un nouveau benchmark teste les agents IA dans des tâches CRM réalistes.
― 9 min lire
La contamination des données affecte la performance des modèles de langage et des méthodes d'évaluation.
― 7 min lire
Cet article parle du besoin de transparence dans les évaluations des modèles linguistiques.
― 9 min lire