摘要
利用深度强化学习挖掘阿尔法因子的目标是从资产的历史金融市场数据中发现投资机会的指示性信号,这些信号可用于预测资产回报并获得超额利润。最近,一个利用深度强化学习生成公式化阿尔法因子的框架被提出,并迅速成为学术界和产业界的关注焦点。本文首先论证了最初采用的策略训练方法,即近端策略优化 (PPO),在阿尔法因子挖掘的背景下存在几个重要问题,使其无法有效探索公式的搜索空间。在此,我们提出了一种基于著名的REINFORCE算法的新型强化学习方法。鉴于底层状态转移函数遵循狄拉克分布,该框架内的马尔可夫决策过程表现出最小的环境变化,使得REINFORCE算法比PPO更合适。我们设计了一种新的专用基线,从理论上减少了REINFORCE算法普遍存在的方差问题。此外,引入信息比率作为奖励塑造机制,以鼓励生成能够更好地适应市场波动变化的稳定阿尔法因子。对各种真实资产数据的实验评估表明,与最新的阿尔法因子挖掘方法相比,该算法可以将与资产收益的相关性提高3.83%,并具有更强的获得超额收益的能力,这与理论结果吻合良好。