LLM2D

摘要

机器学习领域中一个日益增长的趋势是使用数据生成技术，因为机器学习模型的性能依赖于训练数据集的数量。然而，在许多医疗应用中，由于资源限制，收集大型数据集具有挑战性，这会导致过拟合和泛化能力差。本文介绍了一种新方法，即聚类潜在空间中的合成数据点生成（AGCL），旨在通过合成数据生成来提高小型医疗数据集的分类性能。AGCL框架包括特征提取、K-means聚类、基于类分离度量的聚类评估以及从具有不同类表示的聚类中生成合成数据点。该方法应用于帕金森病筛查，利用面部表情数据，并在多个机器学习分类器上进行评估。实验结果表明，与基线、GN和kNNMTD相比，AGCL显著提高了分类精度。AGCL在不同情绪的多数投票中，总体测试精度最高达到83.33%，交叉验证精度最高达到90.90%，证实了其在增强小型数据集方面的有效性。