LLM2D

摘要

arXiv:2505.04553v1 类型：跨学科摘要：我们提出了一种包含凸评分函数的广泛类风险目标下的强化学习（RL）框架。这个类包括许多常见的风险度量，如方差、预期短边、entropic Value-at-Risk 和均值风险效用。为了解决时间不一致问题，我们考虑了扩展的状态空间和辅助变量，并将问题重新表述为一个两状态最优化问题。我们提出了一种定制的Actor-Critic算法，并建立了若干理论逼近保证。一个关键的理论贡献是，我们的结果不要求马尔可夫决策过程是连续的。此外，我们提出了一种受交替最小化算法启发的辅助变量采样方法，在某些条件下具有收敛性。我们在金融统计套利交易的应用模拟实验中验证了我们的方法，展示了该算法的有效性。