LLM2D

摘要

arXiv:2505.08988v1 宣告类型: 新摘要: 强化学习（RL）通常将智能体与环境的交互建模为马尔可夫决策过程（MDP），其中引导智能体行为的奖励总是可观察的。然而，在许多现实世界场景中，奖励并不是总是可观察的，这可以建模为监控马尔可夫决策过程（Mon-MDP）。针对Mon-MDP的先前工作主要限于简单的、基于表的案例，限制了其在实际问题中的应用。本文使用函数近似（FA）探索Mon-MDP，并研究了其中涉及的挑战。我们表明，结合函数近似与学习的奖励模型可以使智能体从具有可观测奖励的监控状态推广到具有不可观奖励的未监控环境状态。因此，我们展示了这样的推广在形式上定义为不可解的环境中实现了接近最优的策略。然而，我们识别出这种函数近似的一个关键局限性，其中智能体由于过度推广而错误地外推奖励，导致不良行为。为了减轻过度推广，我们提出了一种利用奖励不确定性谨慎的策略优化方法。本文为弥合Mon-MDP理论与实际应用之间的差距迈出了一步。