LLM2D
广义高斯时间差误差用于不确定性感知强化学习
Generalized Gaussian Temporal Difference Error for Uncertainty-aware Reinforcement Learning
作者: Seyeon Kim, Joonhun Lee, Namhoon Cho, Sungjun Han, Wooseop Hwang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2408.02295v3

摘要

arXiv:2408.02295v3 更新类型: 替换-交叉 摘要:传统的时间差分(TD)学习方法通常假设TD误差服从零均值高斯分布,这会导致误差表示不准确并削弱不确定性估计。我们提出了一种新的框架,用于在深度强化学习中对广义高斯误差进行建模,通过引入额外的更高阶矩,特别是偏度来增强误差分布建模的灵活性,从而改善数据依赖的偶然不确定性估计和缓解。我们探讨了广义高斯分布(GGD)形状参数对偶然不确定性的影响,并提供了一个闭式表达式,表明不确定性与形状参数之间存在反比关系。此外,我们提出了一种理论依据的加权方案来处理表征不确定性,通过充分利用GGD。我们改进了有偏差减少和偏度考量的批逆方差加权,增强了鲁棒性。实验表明,使用策略梯度算法时,可以实现显著的性能提升。