摘要
arXiv:2505.04310v1 宣告类型: 新
摘要: 我们介绍了一种新的分布强化学习(DistRL)架构,使用归一化流来建模回报分布。这种方法允许回报分布具有灵活的、无界的支撑,这与依赖于固定或有界的表示方法的类别化方法(如C51)不同。它还能够比基于分位数的方法更好地捕捉多模态、偏斜度和尾部行为,同时具有更高的参数效率。常用的用于训练现有模型的标准度量标准(如KL散度或Wasserstein距离)要么对尺度不敏感,要么在回报支撑不重叠时有有偏样本梯度。为了解决这个问题,我们提出了一种新的Cramér距离的替代方案,这种替代方案是几何感知的,并可以直接从回报分布的PDF计算得出,避免了昂贵的CDF计算。我们在ATARI-5子基准测试中测试了我们的模型,并表明我们的方法在保持与基于分位数方法竞争力的同时,优于基于PDF的方法。