LLM2D

摘要

arXiv:2505.04841v1 声明类型: cross 摘要：数据插补是数据预处理中的关键步骤，特别是在具有缺失或不可靠值的数据集中。本研究介绍了一种新的基于量子的插补框架，该框架在UCI糖尿病数据集中进行了评估，该数据集包含多个临床特征上的生物上不可行的缺失值。该方法结合了主成分分析（PCA）与量子辅助旋转，并通过无梯度经典优化器-COBYLA、模拟退火和差分进化进行优化，以在保持统计一致性的同时重建缺失值。重建后的值受限于原始特征分布的±2个标准差范围内，避免了在中心趋势周围出现不现实的聚类。这种方法在多个方面取得了显著改进，包括平均减少超过85%的Wasserstein距离以及Kolmogorov-Smirnov检验p值在0.18到0.22之间，而传统方法（如均值、KNN和MICE）的p值则高于0.99。此外，该方法还消除了零值伪像，并提高了插补数据的真实性和变异性。通过将基于量子的变换与可扩展的经典框架相结合，该方法为医疗和AI管道等领域中的插补任务提供了一个稳健的解决方案，其中数据质量和完整性至关重要。