SciEval évalue les modèles de langage sur leurs compétences en recherche scientifique avec des questions variées.
― 7 min lire
La science de pointe expliquée simplement
SciEval évalue les modèles de langage sur leurs compétences en recherche scientifique avec des questions variées.
― 7 min lire
Une approche pratique pour évaluer les systèmes de guidage pour une analyse de données efficace.
― 10 min lire
Cet article parle de la nécessité d'améliorer les techniques de classification des documents.
― 8 min lire
Combiner des réseaux de neurones avec des méthodes traditionnelles améliore la sécurité et la performance des freins à air.
― 7 min lire
Cet article examine à quel point les méthodes d'évaluation actuelles notent les traductions au niveau des paragraphes.
― 7 min lire
Un nouveau jeu de données aide à évaluer les modèles de langage pour les applications de santé.
― 9 min lire
Une nouvelle méthode pour améliorer la qualité de la parole en utilisant des réseaux éconergétiques.
― 6 min lire
Présentation d'un jeu de données axé sur des conversations questions-réponses factuelles.
― 7 min lire
Une étude évalue l'efficacité de la surveillance One Health à travers onze systèmes européens.
― 7 min lire
Une nouvelle méthode pour mieux évaluer les propositions d'objets dans les tâches de vision et de langage.
― 8 min lire
Les chercheurs utilisent la traduction automatique pour améliorer les évaluations de la qualité des dialogues dans différentes langues.
― 7 min lire
Cet article examine les hallucinations dans les modèles de langage IA et les recherches en cours.
― 9 min lire
Examiner les problèmes et les solutions pour les optimisateurs de requêtes appris dans la gestion de bases de données.
― 6 min lire
Le banc HAE-RAE se concentre sur l'évaluation des connaissances culturelles dans les modèles de langue coréenne.
― 8 min lire
Ce travail évalue à quel point les VLMs raisonnent en se basant sur le contenu visuel.
― 8 min lire
Une étude sur la création de questions de suivi pertinentes pour approfondir la compréhension.
― 8 min lire
Un nouveau jeu de données améliore la synthèse vocale en capturant l'expression émotionnelle sans se baser sur le texte.
― 7 min lire
Un modèle qui combine l'évaluation et l'apprentissage par renforcement améliore l'évaluation émotionnelle.
― 6 min lire
Cette étude examine comment classifier les révisions pour améliorer l'écriture argumentative.
― 7 min lire
Explorer comment les LLM peuvent évaluer les sorties de modèles dans plusieurs langues.
― 8 min lire
SLIDE améliore les évaluations de traduction automatique en intégrant un contexte plus large pendant l'évaluation.
― 7 min lire
Cette méthode améliore la planification des trajets des robots mobiles dans des environnements changeants.
― 8 min lire
Cette étude compare les performances de plusieurs modèles de langage pour répondre à des questions complexes.
― 6 min lire
Une étude examine l'efficacité des masques sonores automatisés dans les espaces publics.
― 5 min lire
Une approche ciblée pour identifier rapidement les bugs logiciels grâce à des tests ciblés.
― 7 min lire
Une nouvelle méthode améliore le diagnostic du cancer en intégrant des signaux de causalité faibles dans l'imagerie médicale.
― 9 min lire
De nouvelles méthodes améliorent le transfert de style pour le texte tout en gardant le sens.
― 8 min lire
Une étude sur la détection de discours haineux dans le langage des réseaux sociaux algériens.
― 9 min lire
Cet article parle des métriques d'évaluation pour des chatbots de santé efficaces.
― 8 min lire
Cette étude examine comment les modèles d'apprentissage profond évoluent pendant la recherche d'architecture neuronale.
― 9 min lire
Découvre une nouvelle méthode pour améliorer l'efficacité d'évaluation dans le calcul des lambda.
― 8 min lire
Présentation de SALSA-CLRS pour améliorer l'évaluation des algos avec des graphes épars.
― 7 min lire
La métrique SQuArE améliore l'évaluation des systèmes de Q&R grâce à plusieurs références de réponse.
― 7 min lire
Un nouveau système vise à connecter les utilisateurs avec des professionnels de la santé grâce à une classification automatisée.
― 6 min lire
Les progrès dans le résumé des conversations entre médecins et patients améliorent la communication en télémédecine.
― 11 min lire
Explorer des techniques de preuve pour évaluer des fonctions dans les langages de programmation.
― 7 min lire
La stabilité dans le clustering garantit que les groupes sont efficaces et significatifs.
― 7 min lire
GRANDE utilise la descente de gradient pour améliorer l'apprentissage à partir de données tabulaires.
― 6 min lire
Une nouvelle méthode pour évaluer les modèles d'IA grâce à des embeddings et des méta caractéristiques.
― 8 min lire
Une nouvelle méthode révèle des tendances dans les décisions juridiques en utilisant l'analyse de texte automatisée.
― 10 min lire