LLM2D

摘要

arXiv:2407.04259v2 宣布类型: replace-cross 摘要: 在本文中，我们提出了一种新颖的 $Q$-学习算法，允许解决分布稳健的马尔可夫决策问题，其中概率测度的含混集可以任意选择，只要含混集中只包含有限数量的测度。因此，我们的方法超越了涉及围绕某个参考测度的含混集的情况，其中参考测度的距离用 Wasserstein 距离或 Kullback-Leibler 散度进行度量。因此，我们的方法允许申请者根据她的需求创建更贴合的含混集，并通过我们的主要成果保证能够利用 $Q$-学习算法解决相关稳健的马尔可夫决策问题。此外，我们在多个数值实验中展示了我们方法的可处理性。