Nouveau dataset améliore la performance du modèle de langue arabe et favorise une communication efficace.
― 8 min lire
La science de pointe expliquée simplement
Nouveau dataset améliore la performance du modèle de langue arabe et favorise une communication efficace.
― 8 min lire
Étudier comment la quantification affecte les performances dans différentes langues.
― 7 min lire
Explorer des modèles d'apprentissage machine et de nouvelles bases de données pour améliorer la sécurité.
― 10 min lire
Un nouveau benchmark s'attaque aux défis de la récupération de code pour les développeurs.
― 9 min lire
De nouvelles méthodes améliorent la fiabilité des textes générés par les modèles de langage.
― 5 min lire
Un outil pour identifier les réponses trompeuses des grands modèles de langages.
― 8 min lire
Découvre l'importance et les défis d'évaluer efficacement la performance des LLM.
― 7 min lire
Un aperçu des classements des modèles de fondation et de leurs problèmes d'évaluation.
― 9 min lire
L'étude révèle le biais dans les outils d'évaluation de l'IA qui favorisent les réponses plus longues.
― 6 min lire
Une nouvelle approche améliore la précision des évaluations des modèles linguistiques.
― 9 min lire
Une nouvelle méthode pour sélectionner des langues diverses dans la recherche en traitement du langage naturel.
― 8 min lire
Un nouveau repère évalue les capacités de raisonnement temporel des grands modèles de langage.
― 6 min lire
Approche innovante pour créer des fonctions d'acquisition efficaces pour l'optimisation bayésienne.
― 7 min lire
Un nouveau jeu de données améliore la précision dans l'évaluation des résumés d'histoires générés par des modèles de langage.
― 6 min lire
Une nouvelle méthode pour évaluer les agents d'analyse de données afin d'obtenir de meilleures idées pour les affaires.
― 7 min lire
Un défi pour améliorer la compréhension des interactions humaines par les robots.
― 8 min lire
Un nouveau cadre vise à automatiser les revues de papiers pour obtenir des retours de meilleure qualité.
― 9 min lire
Présentation de DictaLM 2.0 et DictaLM 2.0-Instruct pour une meilleure traitement de la langue hébraïque.
― 8 min lire
Cette étude examine à quel point les modèles représentent bien les cultures différentes.
― 11 min lire
Un projet axé sur l'amélioration de la génération d'histoires en arabe en utilisant des modèles avancés.
― 9 min lire
Une nouvelle approche pour évaluer les grands modèles de langage afin d'obtenir de meilleures idées sur leurs performances.
― 6 min lire
La recherche présente de nouvelles méthodes pour évaluer les systèmes de reconnaissance vocale en polonais.
― 8 min lire
Découvrez comment les données synthétiques aident les détaillants à protéger la vie privée des clients tout en obtenant des insights.
― 9 min lire
DocBench évalue des systèmes basés sur des LLM pour lire et répondre à différents formats de documents.
― 5 min lire
Un cadre pour évaluer les capacités des LLM dans les tâches liées aux données avec des interprètes de code.
― 6 min lire
Examiner l'impact des LLM sur les stéréotypes sociaux et comment améliorer les résultats.
― 7 min lire
Cette étude propose une nouvelle méthode d'évaluation pour la compréhension vidéo-texte.
― 8 min lire
Analyser l'importance et les difficultés d'évaluer les modèles d'IA multimodaux.
― 8 min lire
Un nouveau jeu de données pour améliorer la performance des réponses aux questions avec de longues réponses rédigées par des humains.
― 8 min lire
Les modèles Phi-3 se concentrent sur la sécurité et l'alignement avec les valeurs humaines.
― 8 min lire
Examiner les problèmes avec les grands modèles de langage pour prédire les éléments manquants d'une liste.
― 9 min lire
Une étude comparant les modèles d'IA et les évaluations humaines des résumés scientifiques.
― 7 min lire
Un nouveau benchmark évalue les modèles de langage sur des défis de codage scientifique dans plusieurs domaines.
― 7 min lire
Check-Eval utilise des listes de contrôle pour améliorer l'évaluation de la qualité des textes.
― 9 min lire
ProtoDep propose des infos claires pour détecter la dépression grâce à l'analyse des réseaux sociaux.
― 10 min lire
Cette étude analyse la performance des circuits de réseaux neuronaux et leur fiabilité.
― 5 min lire
Un nouveau cadre pour créer des images de haute qualité basées sur des mises en page spécifiques.
― 7 min lire
HaloQuest s'attaque aux problèmes d'hallucination dans les modèles vision-langage avec un nouveau jeu de données.
― 12 min lire
Une nouvelle méthode améliore la précision et l'efficacité du suivi de points dans le traitement vidéo.
― 6 min lire
Un outil améliore la catégorisation des actions, aidant à la productivité des devs dans leurs tâches.
― 6 min lire