摘要
arXiv:2409.16824v2 公告类型: replace-cross
摘要:在部分可观测性环境下进行最优决策需要推理环境隐藏状态的不确定性。然而,大多数强化学习架构使用没有内部机制来在其隐藏状态表示中纳入不确定性的时间序列模型,如递归神经网络、确定性状态空间模型和变压器。受强化学习中概率世界模型进展的启发,我们提出了一种独立的卡尔曼滤波层,它在线性状态空间模型中执行封闭形式的高斯推理,并在无模型架构中端对端地训练它以最大化回报。类似高效的线性递归层,卡尔曼滤波层使用并行扫描处理序列数据,其缩放方式与序列长度呈对数关系。通过设计,卡尔曼滤波层可以无缝替换标准无模型架构中的其他递归层,但更重要的是,它们包含一个明确的概率滤波机制来处理潜在状态表示。在各种涉及部分可观测性的任务中进行的实验表明,卡尔曼滤波层在需要进行不确定性推理以做出决策的问题中表现优异,优于其他具有状态的模型。