摘要
arXiv:2505.04553v2 宣告类型: replace-cross
摘要:我们提出了一种针对广泛类别的风险目标的强化学习(RL)框架,这些风险目标由凸评分函数表征。这一类别涵盖了许多常见的风险衡量指标,如方差、预期短寸、熵风险价值以及均值-风险效用。为了解决时间不一致性问题,我们考虑了一个扩展的状态空间和一个辅助变量,并将问题重新表述为一个两状态优化问题。我们提出了一种定制化的Actor-Critic算法,并建立了某些理论近似保证。一个重要的理论贡献是,我们的结果不要求马尔科夫决策过程是连续的。此外,我们提出了一种受交替最小化算法启发的辅助变量采样方法,在某些条件下它是收敛的。我们在仿真实验中展示了该方法在统计套利交易中的有效性,证明了该算法的有效性。