摘要
arXiv:2502.04554v1 数据选择类型:新
摘要:数据选择已成为数据估值下游应用的关键领域。尽管现有的数据估值方法在选择任务中展示了潜力,但使用数据值进行选择的理论基础及其全部潜力仍 largely 未被探索。在本文中,我们首先证明,应用于选择的数据值可以自然地重新表述为一个顺序决策问题,其中最优数据值可以通过动态规划推导出来。我们展示了这种框架通过近似动态规划将现有的方法(如数据 Shannon)重新统一和解释,特别是在此顺序问题中作为近视奖励函数的近似。此外,我们分析了当基础效用函数表现出单调次模性并带有曲率时,顺序数据选择最优性如何受到影响。为了解决计算上获取最优数据值的挑战,我们提出了一种高效的近似方案,利用学习得到的二分图作为代理效用模型,确保当代理效用模型正确指定和学习时,贪婪选择仍然是最优的。广泛的实验展示了我们方法的有效性,适用于各种数据集。