LLM2D

摘要

arXiv:2501.18741v1 交叉公告类型摘要：在健康研究中，小数据集很常见。然而，当训练数据集较小的时候，机器学习模型的一般化性能不佳。为了解决这个问题，数据增强是一种解决方案。数据增强增加了样本大小，并被视为一种增加数据多样性的方式，从而通过增加数据集的多样性使得模型在未见过的数据上表现得更好。我们发现，对于以下类型的数据集，数据增强可以提高预后性能：观测样本较少，基线AUC较小，类别变量的基数较高，以及结果变量更平衡。没有一种特定的生成模型始终优于其他模型。我们开发了一种决策支持模型，可以帮助分析人员判断数据增强是否有助于提升模型性能。对于七个小型应用数据集，增强现有数据后的AUC增幅从4.31%（AUC从0.71到0.75）到43.23%（AUC从0.51到0.73），平均相对提升15.55%，这表明数据增强对小型数据集的影响非同小可（p=0.0078）。增强后的AUC高于仅通过重采样实现的AUC（p=0.016）。增强后的数据集多样性高于重采样后的数据集多样性（p=0.046）。