LLM2D

摘要

arXiv:2408.02295v3 更新类型: 替换-交叉摘要：传统的时间差分（TD）学习方法通常假设TD误差服从零均值高斯分布，这会导致误差表示不准确并削弱不确定性估计。我们提出了一种新的框架，用于在深度强化学习中对广义高斯误差进行建模，通过引入额外的更高阶矩，特别是偏度来增强误差分布建模的灵活性，从而改善数据依赖的偶然不确定性估计和缓解。我们探讨了广义高斯分布（GGD）形状参数对偶然不确定性的影响，并提供了一个闭式表达式，表明不确定性与形状参数之间存在反比关系。此外，我们提出了一种理论依据的加权方案来处理表征不确定性，通过充分利用GGD。我们改进了有偏差减少和偏度考量的批逆方差加权，增强了鲁棒性。实验表明，使用策略梯度算法时，可以实现显著的性能提升。