LLM2D

摘要

arXiv:2504.06987v1 交叉公告类型摘要：代谢综合征（MetS）是由多种相互关联的风险因素组成的群集，这些风险因素显著增加了心血管疾病和2型糖尿病的风险。尽管其在全球范围内普遍存在，但由于现有研究中存在类不平衡、数据稀缺性和方法不一致等问题，准确预测MetS仍具有挑战性。在本文中，我们通过系统评估和优化用于MetS预测的机器学习（ML）模型，利用先进的数据平衡技术和反事实分析来应对这些挑战。我们训练并比较了包括XGBoost、随机森林、TabNet等在内的多种ML模型，并在随机过采样（ROS）、SMOTE、ADASYN和CTGAN等多种数据平衡技术下进行比较。除此之外，我们引入了一种新颖的混合框架MetaBoost，该框架结合了SMOTE、ADASYN和CTGAN，通过加权平均和迭代权重调整来优化合成数据生成，从而提高模型性能（相对于个体平衡技术，实现了1.14%的准确率改进）。进行了全面的反事实分析，以量化需要改变以使个体从高风险类别转变为低风险类别的特征水平变化。结果表明，血糖（50.3%）和甘油三酯（46.7%）是最常被修改的特征，突显了它们在MetS风险降低中的临床意义。此外，概率分析显示，血糖升高（85.5%的可能性）和甘油三酯升高（74.9%的后验概率）是 strongest 预测因子。本研究不仅推进了MetS预测的方法严谨性，还为临床医生和研究人员提供了可操作的见解，突显了机器学习在减轻代谢综合征公共卫生负担方面的潜力。