LLM2D
量子启发式优化过程用于数据插补
Quantum-Inspired Optimization Process for Data Imputation
作者: Nishikanta Mohanty, Bikash K. Behera, Badshah Mukherjee, Christopher Ferrie
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.04841v2

摘要

arXiv:2505.04841v2 通知类型: 替换-交叉 摘要:数据插补是数据预处理中的关键步骤,特别是在处理具有缺失或不可靠值的数据集时。本研究介绍了一种新型的基于量子启发的插补框架,该框架在包含多个临床特征中生物学上不合理的缺失值的UCI糖尿病数据集上进行了评估。该方法将主成分分析(PCA)与量子辅助旋转相结合,并通过无导数梯度优化器- COBYLA、模拟退火和差分进化进行优化,以重建缺失值同时保留统计保真度。重建的值被限制在原始特征分布的标准差正负2倍范围之内,避免了围绕中心趋势的不现实的聚类。这种方法在Wasserstein距离以及Kolmogorov-Smirnov检验p值方面取得了显著的改进,平均减少了超过85%的Wasserstein距离,并且Kolmogorov-Smirnov检验p值在0.18到0.22之间,相比之下,传统的插补方法如均值、KNN和MICE方法的p值大于0.99。此外,该方法还消除了零值的异常,并增强插值数据的现实性和变异性。通过将量子启发的变换与可扩展的经典框架相结合,这种方法为医疗保健和AI流水线等领域中的插补任务提供了稳健的解决方案,数据质量和完整性至关重要。