LLM2D
无界和几何感知的分布强化学习流模型
Flow Models for Unbounded and Geometry-Aware Distributional Reinforcement Learning
作者: Simo Alami C., Rim Kaddah, Jesse Read, Marie-Paule Cani
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2505.04310v1

摘要

arXiv:2505.04310v1 宣告类型: 新 摘要: 我们介绍了一种新的分布强化学习(DistRL)架构,使用归一化流来建模回报分布。这种方法允许回报分布具有灵活的、无界的支撑,这与依赖于固定或有界的表示方法的类别化方法(如C51)不同。它还能够比基于分位数的方法更好地捕捉多模态、偏斜度和尾部行为,同时具有更高的参数效率。常用的用于训练现有模型的标准度量标准(如KL散度或Wasserstein距离)要么对尺度不敏感,要么在回报支撑不重叠时有有偏样本梯度。为了解决这个问题,我们提出了一种新的Cramér距离的替代方案,这种替代方案是几何感知的,并可以直接从回报分布的PDF计算得出,避免了昂贵的CDF计算。我们在ATARI-5子基准测试中测试了我们的模型,并表明我们的方法在保持与基于分位数方法竞争力的同时,优于基于PDF的方法。