摘要
arXiv:2502.10793v1 Announce Type: cross
摘要:现有的用于测量训练样本对模型影响的方法仅提供静态的整体测量,忽视了样本影响在整个训练过程中的变化情况。我们提出了一种动态影响跟踪器(DIT),它在任意时间窗口的训练过程中捕捉样本的影响随时间的变化。
DIT 提供了三个关键见解:1)样本显示了不同的时间变化影响模式,有些样本在早期训练阶段重要,而其他样本则在后来变得重要。2)样本影响在早期和晚期阶段之间表现出较弱的关联,这表明模型经历了具有不同优先级的独立学习阶段。3)在收敛期内分析影响比全训练分析更有效地检测到被污染的样本。DIT 在理论上得到了保证,无需假设损失的凸性或模型的收敛性,它显著优于现有方法,在复杂架构中与真实值的相关性高达0.99,并且在检测被污染的样本方面准确率超过98%。