LLM2D

摘要

arXiv:2505.04841v2 通知类型: 替换-交叉摘要：数据插补是数据预处理中的关键步骤，特别是在处理具有缺失或不可靠值的数据集时。本研究介绍了一种新型的基于量子启发的插补框架，该框架在包含多个临床特征中生物学上不合理的缺失值的UCI糖尿病数据集上进行了评估。该方法将主成分分析（PCA）与量子辅助旋转相结合，并通过无导数梯度优化器- COBYLA、模拟退火和差分进化进行优化，以重建缺失值同时保留统计保真度。重建的值被限制在原始特征分布的标准差正负2倍范围之内，避免了围绕中心趋势的不现实的聚类。这种方法在Wasserstein距离以及Kolmogorov-Smirnov检验p值方面取得了显著的改进，平均减少了超过85%的Wasserstein距离，并且Kolmogorov-Smirnov检验p值在0.18到0.22之间，相比之下，传统的插补方法如均值、KNN和MICE方法的p值大于0.99。此外，该方法还消除了零值的异常，并增强插值数据的现实性和变异性。通过将量子启发的变换与可扩展的经典框架相结合，这种方法为医疗保健和AI流水线等领域中的插补任务提供了稳健的解决方案，数据质量和完整性至关重要。