摘要
arXiv:2504.03743v1 类别: 交叉学科
摘要: 通过信息受限处理来建模有限理性决策提供了一种在强化学习框架内表示理性偏差的原理性方法,同时仍然将决策视为一个优化过程。然而,现有的方法通常基于熵、克里普克-莱布勒散度或互信息。在本工作中,我们指出了这些方法在处理序贯动作空间时存在的问题。具体而言,熵假设均匀先验信念,忽略了先验偏见对决策的影响。克里普克-莱布勒散度解决了这个问题,但它没有“动作之间的相近性”概念,并且还具有诸如缺少对称性等众所周知的潜在不利性质,而且还需要分布具有相同的支撑(例如,所有动作的正概率)。互信息通常难以估计。这里,我们提出了一种基于沃賈夫斯基距离的方法来建模有限理性强化学习代理。这种方法克服了上述问题。更重要的是,这种方法考虑了序贯动作之间的相近性,模拟了代理决策中的“粘性”和快速切换到远处动作的不真实性,同时支持低概率动作、零支撑先验分布,并且可以直接简单地计算。