Gaussian Process Q-Learning for Finite-Horizon Markov Decision Process

Maximilian Bloor, Tom Savage, Calvin Tsay, Antonio del Rio Chanona, Max Mowbray, Gaussian Process Q-Learning for Finite-Horizon Markov Decision Process, Reinforcement Learning Conference, 2025