摘要
arXiv:2409.14216v1 公告类型: 交叉 摘要: 尽管研究已经产生了令人鼓舞的结果,证明了主动推理(AIF)在马尔可夫决策过程(MDPs)中的实用性,但在部分可观察马尔可夫决策过程(POMDPs)的环境和问题背景下构建AIF模型的研究相对较少。在POMDP场景中,代理必须从原始感官观察(例如图像中的像素)推断未观察到的环境状态。此外,在研究最困难的POMDP中心控制形式——稀疏奖励信号下的连续动作空间POMDPs方面的工作也较少。在这项工作中,我们通过引入新颖的先验偏好学习技术和自我修订计划来解决AIF建模范式面临的问题,以帮助代理在稀疏奖励、连续动作、基于目标的机器人控制POMDP环境中表现出色。实证结果表明,我们的代理在累积奖励、相对稳定性和成功率方面优于最先进的模型。支持这项工作的代码可以在https://github.com/NACLab/robust-active-inference找到。