LLM2D
LiveVal:通过自适应参考点的时序数据估值
LiveVal: Time-aware Data Valuation via Adaptive Reference Points
作者: Jie Xu, Zihan Wu, Cong Wang, Xiaohua Jia
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10489v1

摘要

arXiv:2502.10489v1 宣告类型: cross 摘要:时间感知的数据估值能够增强训练效率和模型稳健性,因为它可以及早检测有害样本并防止因无效计算浪费数月时间。然而,现有方法依赖于模型重训练或收敛假设,或者无法捕捉长期训练动态。 我们提出了LiveVal,一种高效的时间感知数据估值方法,具有三个关键设计: 1) 无缝集成到SGD训练中,以高效监控数据贡献; 2) 基于参考的估值并进行标准化,以建立可靠的基准; 3) 适应性参考点选择,以实现实时更新并优化内存使用。 我们为LiveVal的稳定性提供了理论保证,并证明其估值是受限且与优化进程方向一致的。广泛实验表明,LiveVal可以在不同模态和模型规模下提供高效的数据估值,与传统方法相比实现180倍的速度提升,同时保持稳健的检测性能。