LLM2D

摘要

arXiv:2505.06518v1 通知类型: 新摘要: 在许多实际的规划任务中，代理必须应对环境状态的不确定性以及任何选择的策略结果的变异性。我们首先将这两种不确定性纳入考虑，以朝着部分可观测环境中的更安全的算法迈出一步。具体而言，我们将完全可观测领域中的分布强化学习(DistRL)扩展到部分可观测马尔可夫决策过程(POMDPs)，使代理能够学习每种条件计划的回报分布。具体来说，我们引入了新的分布贝尔曼算子来处理部分可观测性，并证明其在 supremum p-Wasserstein 茶度下收敛。我们还提出了一种通过ψ向量表示这些回报分布的方法，这种ψ向量推广了经典POMDP求解器中的α向量。在此基础上，我们发展了分布点基价值迭代(DPBVI)，该方法将ψ向量整合到标准的点基备份过程中，从而将DistRL与POMDP规划结合起来。通过追踪回报分布，DPBVI 自然地使代理能够处理那些罕见但影响重大的事件，从而实现风险敏感的控制。我们将提供源代码以促进在部分可观测环境下的稳健决策研究。