LLM2D

摘要

arXiv:2504.05521v1 类型:交叉摘要:动态对冲是一种金融策略，它通过周期性交易一种或多种金融资产来抵消与相关负债相关的风险。深度强化学习（DRL）算法已被用于通过将动态对冲问题框架化为顺序决策问题来寻找动态对冲问题的最优解。然而，大多数先前的工作仅评估了一两种DRL算法的性能，使得在算法之间进行客观比较变得困难。在本文中，我们比较了八种DRL算法在动态对冲中的性能；它们包括Monte Carlo策略梯度（MCPG）、贴近策略优化（PPO），以及四种变体的深度Q学习（DQL）和两种变体的深度确定性策略梯度（DDPG）。这两种变体代表了对动态对冲任务的一种新颖应用。在我们的实验中，我们以布莱克-斯科尔斯Delta套期保值为基础线，并使用GJR-GARCH(1,1)模型模拟数据集。结果表明，MCPG 接下来的PPO在半二次惩罚的根的性能上表现最佳。此外，MCPG是唯一一种在分配的计算预算内能够超越布莱克-斯科尔斯Delta套期保值基线的算法，这可能归因于我们环境中的奖励稀疏性。