LLM2D
CatNet:基于高斯镜像和SHAP特征重要性的LSTM有效错误发现率控制
CatNet: Effective FDR Control in LSTM with Gaussian Mirrors and SHAP Feature Importance
作者: Jiaan Han, Junxiao Chen, Yanzhe Fu
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.16666v2

摘要

我们提出了一种名为CatNet的算法,该算法有效地控制了错误发现率(FDR),并利用高斯镜像(GM)方法在长短期记忆网络(LSTM)中选择显著特征。为了评估LSTM在时间序列中的特征重要性,我们引入了一种基于SHapley Additive exPlanations (SHAP)导数的向量来衡量特征重要性。我们还提出了一种新的基于核的依赖性度量方法,以避免GM算法中的多重共线性,从而实现具有受控FDR的鲁棒特征选择。我们使用模拟数据评估了CatNet在具有不同链接函数的线性模型和LSTM模型中的性能。该算法在所有情况下都能有效地控制FDR,同时保持较高的统计功效。我们还在不同的低维和高维情况下评估了该算法的性能,证明了其在各种输入维度下的鲁棒性。为了评估CatNet在实际应用中的性能,我们构建了一个多因素投资组合来预测标准普尔500指数成分股的价格。结果表明,与没有特征选择和FDR控制的传统LSTM模型相比,我们的模型实现了更高的预测精度。此外,CatNet有效地捕捉了常见的市场驱动因素,这通过增强预测的可解释性,有助于在金融市场中做出明智的决策。我们的研究首次将高斯镜像算法与LSTM模型相结合,并将SHAP值作为FDR控制方法中一种新的特征重要性度量指标,标志着神经网络特征选择和误差控制方面的一项重大进展。