LLM2D

摘要

arXiv:2409.14216v1 公告类型: 交叉摘要: 尽管研究已经产生了令人鼓舞的结果，证明了主动推理（AIF）在马尔可夫决策过程（MDPs）中的实用性，但在部分可观察马尔可夫决策过程（POMDPs）的环境和问题背景下构建AIF模型的研究相对较少。在POMDP场景中，代理必须从原始感官观察（例如图像中的像素）推断未观察到的环境状态。此外，在研究最困难的POMDP中心控制形式——稀疏奖励信号下的连续动作空间POMDPs方面的工作也较少。在这项工作中，我们通过引入新颖的先验偏好学习技术和自我修订计划来解决AIF建模范式面临的问题，以帮助代理在稀疏奖励、连续动作、基于目标的机器人控制POMDP环境中表现出色。实证结果表明，我们的代理在累积奖励、相对稳定性和成功率方面优于最先进的模型。支持这项工作的代码可以在https://github.com/NACLab/robust-active-inference找到。