LLM2D

摘要

arXiv:2505.04310v1 宣告类型: 新摘要: 我们介绍了一种新的分布强化学习(DistRL)架构，使用归一化流来建模回报分布。这种方法允许回报分布具有灵活的、无界的支撑，这与依赖于固定或有界的表示方法的类别化方法（如C51）不同。它还能够比基于分位数的方法更好地捕捉多模态、偏斜度和尾部行为，同时具有更高的参数效率。常用的用于训练现有模型的标准度量标准（如KL散度或Wasserstein距离）要么对尺度不敏感，要么在回报支撑不重叠时有有偏样本梯度。为了解决这个问题，我们提出了一种新的Cramér距离的替代方案，这种替代方案是几何感知的，并可以直接从回报分布的PDF计算得出，避免了昂贵的CDF计算。我们在ATARI-5子基准测试中测试了我们的模型，并表明我们的方法在保持与基于分位数方法竞争力的同时，优于基于PDF的方法。