摘要
arXiv:2407.19804v2 公告类型: 替换
摘要:缺失值在各个领域中普遍存在,给训练和部署预测模型带来了挑战。在这种情况下,插补是一种常见做法,其背后的想法是准确的插补能够提升预测效果。然而,最近的理论和实证研究表明,简单的常数插补可能是连贯且具有竞争力的。本实证研究旨在阐明在什么情况下以及在多大程度上投资于先进的插补方法能够显著提高预测效果。通过对19个数据集插补和预测模型的组合进行研究,我们显示了以下几点:i) 使用表达能力强的模型时,插补准确性的影响较小;ii) 当将缺失性指示作为补充输入时,插补准确性的影响较小;iii) 对生成的线性结果而言,插补准确性的影响比对真实数据结果的影响大得多。有趣的是,我们还展示了在MCAR场景下,使用缺失性指示对预测性能是有益的。总的来说,在使用强大模型的真实数据中,提高插补的效果对预测性能的影响较小。因此,在为了提高预测精度而投资于更好的插补方法往往效果有限。