LLM2D
基于混合数据平衡和反事实推理的代谢综合症预测增强方法
Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals
作者: Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma, Hassan Ghasemzadeh
发布日期: 5/8/2025
arXiv ID: oai:arXiv.org:2504.06987v2

摘要

arXiv:2504.06987v2 通知类型: replace-cross 摘要:代谢综合征(MetS)是一系列相互关联的风险因素,显著增加了心血管疾病和2型糖尿病的风险。尽管其具有全球流行性,但由于数据不平衡、数据稀缺以及现有研究方法上的不一致性等问题,准确预测MetS仍然具有挑战性。在本文中,我们通过系统地评估和优化用于MetS预测的机器学习(ML)模型来应对这些挑战,利用先进的数据平衡技术以及反事实分析。我们训练了多种ML模型,包括XGBoost、随机森林、TabNet等,并在随机过采样(ROS)、SMOTE、ADASYN和CTGAN等多种数据平衡技术下进行了比较。此外,我们引入了MetaBoost,这是一种新颖的混合框架,将SMOTE、ADASYN和CTGAN集成在一起,通过加权平均和迭代权重调整优化合成数据生成,以提高模型的性能(相对于单独的数据平衡技术,精度提高最多可达1.87%)。我们还进行了全面的反事实分析,以量化从高风险类别转向低风险类别所需的特征级变化。结果表明,血糖(50.3%)和甘油三酯(46.7%)是最常被修改的特征,突显了它们在降低MetS风险方面的临床意义。此外,概率分析显示,血糖(85.5%的可能性)和甘油三酯(74.9%的后验概率)是最强的预测因素。这项研究不仅提高了MetS预测的方法论严谨性,还为临床医生和研究人员提供了可操作的见解,突显了机器学习在减轻代谢综合征公共卫生负担方面的潜力。