LLM2D

摘要

arXiv:2504.11412v1 Announce Type: cross 摘要：风险规避强化学习（RARL）在不确定性的决策制定中至关重要，特别是在高风险应用中尤为重要。然而，现有的大多数研究侧重于风险衡量标准，如条件值风险（CVaR），而变异性衡量标准则未被充分探索。在本文中，我们全面研究了九种常见的变异性衡量标准，即方差、基尼偏差、均值偏差、均值中位数偏差、标准差、四分位间距、CVaR偏差、半方差和半标准差。其中，有四种指标在RARL中尚未被研究。我们为这些未研究的指标推导了策略梯度公式，改进了基尼偏差的梯度估计，分析了它们的梯度特性，并将它们与REINFORCE和PPO框架结合，以限制回报的分散性。我们的实证研究表明，基于方差的指标会导致策略更新不稳定。相比之下，CVaR偏差和基尼偏差在不同的随机性和评估领域表现出一致性性能，能够实现高回报并有效学习风险规避策略。均值偏差和半标准差在不同场景下也具有竞争力。本工作提供了RARL中变异性衡量标准的全面概述，为风险意识决策提供了实用见解，并指导未来关于风险衡量标准和RARL算法的研究。