LLM2D
深度强化学习算法在期权对冲中的应用
Deep Reinforcement Learning Algorithms for Option Hedging
作者: Andrei Neagu, Fr\'ed\'eric Godin, Leila Kosseim
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.05521v2

摘要

arXiv:2504.05521v2 宣传类型: 替换交叉 摘要:动态套期保值是一种金融策略,包括定期交易一种或多种金融资产,以抵消与相关负债相关的风险。深度强化学习(DRL)算法通过将动态套期保值问题框架化为顺序决策问题,已被用于寻找最优解。然而,大多数先前的工作只评估了一种或两种DRL算法的表现,这使得算法之间的客观比较变得困难。在本文中,我们比较了八种DRL算法在动态套期保值领域的性能;蒙特卡洛策略梯度(MCPG)、近端策略优化(PPO),以及四种不同的深度Q学习(DQL)和两种不同的深度确定性策略梯度(DDPG)变体。其中两种变体是首次应用于动态套期保值任务。在我们的实验中,我们使用布莱克-斯科尔斯δ对冲作为基准,并使用GJR-GARCH(1,1)模型模拟数据集。结果显示,MCPG 接着是PPO,在根半抛物惩罚方面获得最佳性能。此外,MCPG 是唯一一种在赋予的计算预算范围内超越布莱克-斯科尔斯δ对冲基准算法的算法,这可能是由于我们环境中的奖励稀疏性所致。