摘要
arXiv:2502.06574v1 数据估值类型:新
摘要:基于半值的数据估值在机器学习(ML)中通过利用合作博弈理论的原则和效用的概念,量化了单个数据点对下游ML任务的贡献。尽管这种框架在实践中已被用于评估数据质量,但我们的实验揭示了不同效用下的估值结果存在不一致性,尽管这些效用都与ML性能相关。除了对数据估值可靠性的担忧外,这种不一致性难以诠释,因为它源自效用与数据点和半值权重之间的复杂互动,而在此之前的工作对此研究甚少。在本文中,我们朝着阐明效应对基于半值的数据估值影响迈出第一步。具体来说,我们为包括准确率和算术平均在内的广泛分类效用家族提供了几何解释。我们引入了空间签名的概念:给定一个半值,数据点可以嵌入到一个二维空间中,而效用函数映射到这个空间的对偶空间。这种几何视角将数据集和半值的影响与效用的影响区分开来,为实验观察到的估值结果对效用选择的敏感性提供了理论解释。