Pierre Clavier

Wir stellen variational inference Thompson sampling vor, um Entscheidungen effizient zu treffen.

2025-10-11T05:54:32+00:00 ― 6 min Lesedauer

Wir stellen ExpectRL vor, um Überbewertung im Reinforcement Learning mit Hilfe von Erwartungswerten anzugehen.

2025-08-01T08:48:18+00:00 ― 8 min Lesedauer

Ein neuer Massstab zum Testen robuster Verstärkungslernmethoden in verschiedenen Umgebungen.

2025-07-29T22:12:48+00:00 ― 7 min Lesedauer

Forscher verbessern das Verstärkungslernen mit einem neuen Rahmen für unsichere Umgebungen.

2025-07-29T22:04:54+00:00 ― 6 min Lesedauer