摘要
arXiv:2502.10473v1 类型:new
摘要:离线强化学习(Offline RL)算法使用固定的训练数据集来学习策略,然后将该策略部署在线上环境中进行交互和决策。由于建模时间序列数据的标准选择是变压器,因此在离线RL中,变压器也开始流行起来。在此背景下,束搜索(BS)是一种常用的近似推断算法,通常作为解码方法。离线RL消除了在线数据收集的高成本或风险的需求。然而,受限的数据集会引起不确定性,因为代理在执行过程中可能会遇到训练数据中未涵盖的陌生状态和动作序列。在此背景下,BS缺乏两个对于离线RL至关重要的属性:它没有考虑到上述的不确定性,而且其贪婪的左右搜索方法往往会导致变异性最小的序列,无法探索潜在更好的替代方案。
为了克服这些限制,我们提出了一种名为组合束搜索(Portfolio Beam Search,PBS)的新颖替代方法,这是一种在进行解码时平衡探索与利用的简单而有效的方案,用于变压器模型。我们从金融经济学中汲取灵感,并将这些原则应用于开发一种认知不确定性的多样性机制,在推断时将其集成到顺序解码算法中。我们在D4RL运动基准测试中实证展示了PBS的有效性,它实现了更高的回报并显著降低了结果的变异性。