Arman Cohan

Cette étude évalue quand les expansions améliorent ou nuisent à la performance de la recherche d'informations.

2025-09-26T14:07:30+00:00 ― 5 min lire

Cette étude examine les capacités des LLM à produire des données structurées avec précision.

2025-09-26T00:57:30+00:00 ― 8 min lire

Un regard approfondi sur comment les LLM transforment le langage en code à travers plusieurs tâches.

2025-09-20T06:58:18+00:00 ― 11 min lire

Un nouveau modèle de langue ouvert pour la recherche et l'innovation en traitement du langage naturel.

2025-09-12T09:14:24+00:00 ― 7 min lire

Examiner les vulnérabilités et les stratégies de sécurité pour les agents scientifiques alimentés par des LLM.

2025-09-10T13:23:42+00:00 ― 9 min lire

Une étude révèle un chevauchement de données important qui affecte les évaluations des modèles de langage dans la génération de code.

2025-09-01T02:16:12+00:00 ― 8 min lire

Un nouveau jeu de données aide les modèles IR à s'adapter à des instructions complexes pour de meilleures performances.

2025-08-26T18:49:00+00:00 ― 3 min lire

La contamination des données affecte grave l'évaluation des grands modèles de langue.

2025-07-26T10:12:36+00:00 ― 7 min lire

Deux méthodes améliorent la précision des évaluations de texte générées par l'IA.

2025-05-29T22:25:03+00:00 ― 8 min lire

Un nouveau critère évalue les modèles pour vérifier les revendications financières dans des documents complexes.

2025-05-27T17:33:54+00:00 ― 8 min lire

ChemSafetyBench teste des chatbots sur la sécurité chimique et les connaissances.

2025-05-06T00:39:52+00:00 ― 7 min lire