Nirjhar Das

Une nouvelle méthode améliore la collecte de données pour un meilleur alignement des modèles linguistiques.

2025-09-07T04:41:00+00:00 ― 7 min lire

Cet article parle d'algorithmes pour améliorer la prise de décision dans des scénarios de bandit contextuel.

2025-08-20T15:21:00+00:00 ― 8 min lire

Cette étude explore les récompenses hybrides dans des bandits contextuels linéaires pour une meilleure prise de décision.

2025-07-28T21:27:36+00:00 ― 6 min lire