LLM2D
基于循环神经网络、随机森林和 XGBoost 的不平衡数据分类模型:东南亚五国股市早期崩盘检测案例
Classification Modeling with RNN-Based, Random Forest, and XGBoost for Imbalanced Data: A Case of Early Crash Detection in ASEAN-5 Stock Markets
作者: Deri Siswara, Agus M. Soleh, Aji Hamim Wigena
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2406.07888v2

摘要

本研究旨在评估几种循环神经网络 (RNN) 架构(包括简单 RNN、门控循环单元 (GRU) 和长短期记忆 (LSTM))的性能,并将其与随机森林和 XGBoost 等经典算法进行比较,从而构建东南亚 5 国股票市场早期崩盘检测的分类模型。该研究使用不平衡数据进行检验,由于市场崩盘的罕见性,这种数据很常见。该研究分析了 2010 年至 2023 年期间东南亚 5 国(包括印度尼西亚、马来西亚、新加坡、泰国和菲律宾)主要股票市场的每日数据。当主要股票价格指数跌破 5%、2.5% 和 1% 的风险价值 (VaR) 阈值时,市场崩盘被识别为目标变量。预测因子包括主要本地和全球市场的技术指标以及商品市场指标。本研究包括 213 个预测因子及其各自的滞后值(5、10、15、22、50、200),并使用 7 的时间步长,将预测因子的总数扩展到 1491 个。数据不平衡的挑战通过 SMOTE-ENN 来解决。结果表明,所有基于 RNN 的架构都优于随机森林和 XGBoost。在各种 RNN 架构中,简单 RNN 表现最为出色,这主要是因为数据特征并不过于复杂,并且更关注短期信息。本研究通过纳入不同地理区域和时间段等变量以及方法调整,增强并扩展了先前研究中观察到的现象范围。