Adrian de Wynter

Explorer comment les LLM peuvent évaluer les sorties de modèles dans plusieurs langues.

2025-09-27T00:00:00+00:00 ― 8 min lire

Cette étude évalue la capacité des LLM à effectuer des tâches de raisonnement argumentatif.

2025-09-20T20:47:48+00:00 ― 8 min lire

GPT-4 montre qu'il peut s'amuser avec le jeu classique DOOM.

2025-08-31T05:59:36+00:00 ― 6 min lire

Un nouveau jeu de données évalue comment les modèles de langage gèrent le contenu nuisible à travers les cultures.

2025-08-17T13:52:48+00:00 ― 7 min lire

Explorer la montée de la solitude et son impact sur la société.

2025-04-24T18:38:45+00:00 ― 9 min lire