摘要
在部分可观测性下进行最优决策需要对环境隐藏状态的不确定性进行推理。然而,大多数强化学习架构使用没有内部机制来将隐藏状态表示中的不确定性纳入其中的序列模型来处理部分可观测性,例如循环神经网络、确定性状态空间模型和转换器。受强化学习中概率世界模型进展的启发,我们提出了一种独立的卡尔曼滤波器层,该层在线性状态空间模型中执行闭式高斯推理,并在无模型架构中端到端地训练它以最大化回报。与高效的线性循环层类似,卡尔曼滤波器层使用并行扫描处理顺序数据,该扫描随序列长度呈对数增长。通过设计,卡尔曼滤波器层可以替代标准无模型架构中的其他循环层,但重要的是,它们包含一个用于对潜在状态表示进行概率滤波的显式机制。在各种具有部分可观测性的任务中的实验表明,卡尔曼滤波器层在不确定性推理对于决策至关重要的任务中表现出色,优于其他有状态模型。