摘要
缺失值是数据分析和机器学习中普遍存在的问题,给数据分析和机器学习带来了重大挑战。这个问题需要开发一种有效的插补方法来准确地填充缺失值,从而提高数据集的整体质量和效用。然而,现有的插补方法在嵌入初始化阶段没有明确考虑数据中的“缺失”信息,并且在学习过程中没有对纠缠的特征和样本相关性进行建模,因此导致性能低下。我们提出了 M$^3$-Impute,旨在通过新颖的掩码方案明确利用缺失信息和这种相关性。M$^3$-Impute 首先将数据建模为二部图,并使用图神经网络来学习节点嵌入,其中改进的嵌入初始化过程直接整合了缺失信息。然后,通过 M$^3$-Impute 的新颖特征相关单元 (FRU) 和样本相关单元 (SRU) 对它们进行优化,这些单元有效地捕获了用于插补的特征和样本相关性。在三种不同的缺失设置下,对 25 个基准数据集进行的实验结果表明,M$^3$-Impute 的有效性,平均而言,在 20 个最佳和 4 个次佳 MAE 得分上取得了成功。