摘要
arXiv:2505.04553v1 类型:跨学科
摘要:我们提出了一种包含凸评分函数的广泛类风险目标下的强化学习(RL)框架。这个类包括许多常见的风险度量,如方差、预期短边、entropic Value-at-Risk 和均值风险效用。为了解决时间不一致问题,我们考虑了扩展的状态空间和辅助变量,并将问题重新表述为一个两状态最优化问题。我们提出了一种定制的Actor-Critic算法,并建立了若干理论逼近保证。一个关键的理论贡献是,我们的结果不要求马尔可夫决策过程是连续的。此外,我们提出了一种受交替最小化算法启发的辅助变量采样方法,在某些条件下具有收敛性。我们在金融统计套利交易的应用模拟实验中验证了我们的方法,展示了该算法的有效性。