LLM2D

摘要

arXiv:2504.06987v2 通知类型: replace-cross 摘要：代谢综合征（MetS）是一系列相互关联的风险因素，显著增加了心血管疾病和2型糖尿病的风险。尽管其具有全球流行性，但由于数据不平衡、数据稀缺以及现有研究方法上的不一致性等问题，准确预测MetS仍然具有挑战性。在本文中，我们通过系统地评估和优化用于MetS预测的机器学习（ML）模型来应对这些挑战，利用先进的数据平衡技术以及反事实分析。我们训练了多种ML模型，包括XGBoost、随机森林、TabNet等，并在随机过采样（ROS）、SMOTE、ADASYN和CTGAN等多种数据平衡技术下进行了比较。此外，我们引入了MetaBoost，这是一种新颖的混合框架，将SMOTE、ADASYN和CTGAN集成在一起，通过加权平均和迭代权重调整优化合成数据生成，以提高模型的性能（相对于单独的数据平衡技术，精度提高最多可达1.87%）。我们还进行了全面的反事实分析，以量化从高风险类别转向低风险类别所需的特征级变化。结果表明，血糖（50.3%）和甘油三酯（46.7%）是最常被修改的特征，突显了它们在降低MetS风险方面的临床意义。此外，概率分析显示，血糖（85.5%的可能性）和甘油三酯（74.9%的后验概率）是最强的预测因素。这项研究不仅提高了MetS预测的方法论严谨性，还为临床医生和研究人员提供了可操作的见解，突显了机器学习在减轻代谢综合征公共卫生负担方面的潜力。