LLM2D
风险规避策略梯度的变异性度量
Measures of Variability for Risk-averse Policy Gradient
作者: Yudong Luo, Yangchen Pan, Jiaqi Tan, Pascal Poupart
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11412v1

摘要

arXiv:2504.11412v1 Announce Type: cross 摘要:风险规避强化学习(RARL)在不确定性的决策制定中至关重要,特别是在高风险应用中尤为重要。然而,现有的大多数研究侧重于风险衡量标准,如条件值风险(CVaR),而变异性衡量标准则未被充分探索。在本文中,我们全面研究了九种常见的变异性衡量标准,即方差、基尼偏差、均值偏差、均值中位数偏差、标准差、四分位间距、CVaR偏差、半方差和半标准差。其中,有四种指标在RARL中尚未被研究。我们为这些未研究的指标推导了策略梯度公式,改进了基尼偏差的梯度估计,分析了它们的梯度特性,并将它们与REINFORCE和PPO框架结合,以限制回报的分散性。 我们的实证研究表明,基于方差的指标会导致策略更新不稳定。相比之下,CVaR偏差和基尼偏差在不同的随机性和评估领域表现出一致性性能,能够实现高回报并有效学习风险规避策略。均值偏差和半标准差在不同场景下也具有竞争力。本工作提供了RARL中变异性衡量标准的全面概述,为风险意识决策提供了实用见解,并指导未来关于风险衡量标准和RARL算法的研究。