LLM2D
Home
Arxiv
返回列表
部分可观测下的浅层规划
On shallow planning under partial observability
作者:
Randy Lefebvre, Audrey Durand
发布日期:
2/19/2025
arXiv ID:
oai:arXiv.org:2407.15820v2
摘要
arXiv:2407.15820v2 更新类型: 修订 摘要: 在强化学习框架下形式化一个现实世界问题涉及非平凡的设计选择,例如为学习目标(折扣累积奖励)选择一个折扣因子,这决定了代理的规划时间范围。本工作研究了在底层马尔科夫决策过程结构参数给定的情况下,折扣因子对偏差-方差贸易关系的影响。我们的结果支持缩短规划时间范围可能更有益的观点,特别是在部分可观测的情况下。
查看原文
下载 PDF