LLM2D

摘要

缺失值是数据分析和机器学习中普遍存在的问题，给数据分析和机器学习带来了重大挑战。这个问题需要开发一种有效的插补方法来准确地填充缺失值，从而提高数据集的整体质量和效用。然而，现有的插补方法在嵌入初始化阶段没有明确考虑数据中的“缺失”信息，并且在学习过程中没有对纠缠的特征和样本相关性进行建模，因此导致性能低下。我们提出了 M$^3$-Impute，旨在通过新颖的掩码方案明确利用缺失信息和这种相关性。M$^3$-Impute 首先将数据建模为二部图，并使用图神经网络来学习节点嵌入，其中改进的嵌入初始化过程直接整合了缺失信息。然后，通过 M$^3$-Impute 的新颖特征相关单元 (FRU) 和样本相关单元 (SRU) 对它们进行优化，这些单元有效地捕获了用于插补的特征和样本相关性。在三种不同的缺失设置下，对 25 个基准数据集进行的实验结果表明，M$^3$-Impute 的有效性，平均而言，在 20 个最佳和 4 个次佳 MAE 得分上取得了成功。