LLM2D
有限不确定性集合下的鲁棒Q学习
Robust Q-Learning for finite ambiguity sets
作者: C\'ecile Decker, Julian Sester
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2407.04259v2

摘要

arXiv:2407.04259v2 宣布类型: replace-cross 摘要: 在本文中,我们提出了一种新颖的 $Q$-学习算法,允许解决分布稳健的马尔可夫决策问题,其中概率测度的含混集可以任意选择,只要含混集中只包含有限数量的测度。因此,我们的方法超越了涉及围绕某个参考测度的含混集的情况,其中参考测度的距离用 Wasserstein 距离或 Kullback-Leibler 散度进行度量。因此,我们的方法允许申请者根据她的需求创建更贴合的含混集,并通过我们的主要成果保证能够利用 $Q$-学习算法解决相关稳健的马尔可夫决策问题。此外,我们在多个数值实验中展示了我们方法的可处理性。