LLM2D

摘要

arXiv:2505.04553v2 宣告类型: replace-cross 摘要：我们提出了一种针对广泛类别的风险目标的强化学习(RL)框架，这些风险目标由凸评分函数表征。这一类别涵盖了许多常见的风险衡量指标，如方差、预期短寸、熵风险价值以及均值-风险效用。为了解决时间不一致性问题，我们考虑了一个扩展的状态空间和一个辅助变量，并将问题重新表述为一个两状态优化问题。我们提出了一种定制化的Actor-Critic算法，并建立了某些理论近似保证。一个重要的理论贡献是，我们的结果不要求马尔科夫决策过程是连续的。此外，我们提出了一种受交替最小化算法启发的辅助变量采样方法，在某些条件下它是收敛的。我们在仿真实验中展示了该方法在统计套利交易中的有效性，证明了该算法的有效性。