摘要
arXiv:2505.04841v1 声明类型: cross
摘要:数据插补是数据预处理中的关键步骤,特别是在具有缺失或不可靠值的数据集中。本研究介绍了一种新的基于量子的插补框架,该框架在UCI糖尿病数据集中进行了评估,该数据集包含多个临床特征上的生物上不可行的缺失值。该方法结合了主成分分析(PCA)与量子辅助旋转,并通过无梯度经典优化器-COBYLA、模拟退火和差分进化进行优化,以在保持统计一致性的同时重建缺失值。重建后的值受限于原始特征分布的±2个标准差范围内,避免了在中心趋势周围出现不现实的聚类。这种方法在多个方面取得了显著改进,包括平均减少超过85%的Wasserstein距离以及Kolmogorov-Smirnov检验p值在0.18到0.22之间,而传统方法(如均值、KNN和MICE)的p值则高于0.99。此外,该方法还消除了零值伪像,并提高了插补数据的真实性和变异性。通过将基于量子的变换与可扩展的经典框架相结合,该方法为医疗和AI管道等领域中的插补任务提供了一个稳健的解决方案,其中数据质量和完整性至关重要。