LLM2D

摘要

传统的不确定性感知时序差分 (TD) 学习方法通常依赖于简单的假设，通常包括 TD 错误的零均值高斯分布。这种过度简化会导致错误表示不准确，并损害不确定性估计。在本文中，我们介绍了一种用于深度强化学习中广义高斯误差建模的新框架，适用于离散和连续控制设置。我们的框架通过合并额外的更高阶矩（特别是峰度）来增强误差分布建模的灵活性，从而提高数据相关噪声（即偶然不确定性）的估计和缓解。我们研究了广义高斯分布 (GGD) 形状参数对偶然不确定性的影响，并提供了一个闭式表达式，该表达式表明不确定性和形状参数之间存在反比关系。此外，我们提出了一种理论上合理的加权方案，以充分利用 GGD。为了解决认知不确定性，我们通过合并偏差降低和峰度考虑来增强批次逆方差加权，从而提高鲁棒性。使用策略梯度算法进行的大量实验评估证明了我们方法的一致有效性，展示了显著的性能改进。