摘要
arXiv:2408.02295v3 更新类型: 替换-交叉
摘要:传统的时间差分(TD)学习方法通常假设TD误差服从零均值高斯分布,这会导致误差表示不准确并削弱不确定性估计。我们提出了一种新的框架,用于在深度强化学习中对广义高斯误差进行建模,通过引入额外的更高阶矩,特别是偏度来增强误差分布建模的灵活性,从而改善数据依赖的偶然不确定性估计和缓解。我们探讨了广义高斯分布(GGD)形状参数对偶然不确定性的影响,并提供了一个闭式表达式,表明不确定性与形状参数之间存在反比关系。此外,我们提出了一种理论依据的加权方案来处理表征不确定性,通过充分利用GGD。我们改进了有偏差减少和偏度考量的批逆方差加权,增强了鲁棒性。实验表明,使用策略梯度算法时,可以实现显著的性能提升。