Debmalya Mandal

Développer des algos pour améliorer l'apprentissage par renforcement en utilisant les retours humains malgré la corruption des données.

2025-09-09T15:24:24+00:00 ― 7 min lire

Cette étude présente une méthode pour attribuer des récompenses dans des environnements inconnus.

2025-09-09T09:44:42+00:00 ― 7 min lire

Une nouvelle approche de l'apprentissage par renforcement prend en compte les changements environnementaux causés par les actions de l'agent.

2025-09-07T14:09:48+00:00 ― 7 min lire

Examen de l'impact de la corruption des données sur les stratégies d'apprentissage dans des jeux de Markov à somme nulle à deux joueurs.

2025-09-01T23:36:00+00:00 ― 8 min lire

Une nouvelle méthode améliore la précision des choix en se concentrant sur les préférences partielles.

2025-08-03T13:28:18+00:00 ― 8 min lire

Cette étude se concentre sur des symétries cachées dans des bandits linéaires de haute dimension.

2025-07-29T13:43:16+00:00 ― 9 min lire

Explorer comment le RL performatif change les dynamiques de jeu et la stabilité des politiques.

2025-05-28T22:03:27+00:00 ― 6 min lire

Un regard sur comment voter peut clarifier les opinions dans de grands groupes.

2025-05-23T21:07:39+00:00 ― 5 min lire