LLM2D

摘要

arXiv:2504.05521v2 宣传类型: 替换交叉摘要：动态套期保值是一种金融策略，包括定期交易一种或多种金融资产，以抵消与相关负债相关的风险。深度强化学习（DRL）算法通过将动态套期保值问题框架化为顺序决策问题，已被用于寻找最优解。然而，大多数先前的工作只评估了一种或两种DRL算法的表现，这使得算法之间的客观比较变得困难。在本文中，我们比较了八种DRL算法在动态套期保值领域的性能；蒙特卡洛策略梯度（MCPG）、近端策略优化（PPO），以及四种不同的深度Q学习（DQL）和两种不同的深度确定性策略梯度（DDPG）变体。其中两种变体是首次应用于动态套期保值任务。在我们的实验中，我们使用布莱克-斯科尔斯δ对冲作为基准，并使用GJR-GARCH(1,1)模型模拟数据集。结果显示，MCPG 接着是PPO，在根半抛物惩罚方面获得最佳性能。此外，MCPG 是唯一一种在赋予的计算预算范围内超越布莱克-斯科尔斯δ对冲基准算法的算法，这可能是由于我们环境中的奖励稀疏性所致。