LLM2D

摘要

arXiv:2502.08685v1 声明类型: cross 摘要: 用户行为记录是推荐系统的基础。尽管行为数据容易获取，但它常常受到质量变化的影响。当前的方法利用数据估值来区分高质量数据和低质量数据。然而，这些方法往往采用黑盒设计，缺乏透明性和可解释性。此外，它们通常针对特定的评估指标定制，导致在各种任务中适用性有限。为解决这些问题，我们提出了一种可解释且通用的框架DVR，该框架可以针对任何模型架构和评估指标的要求提升数据利用效率。为了实现可解释的数据估值，我们提出了一种数据估值器，通过从博弈论的角度计算其Shapley值来评估数据质量，确保其具有稳健的数学特性和可靠性。为了适应各种评估指标，包括可微分和不可微分的指标，我们基于强化学习设计了一个指标适配器，其中将指标视为引导模型优化的强化奖励。我们在多个基准上进行的广泛实验验证了我们的框架可以在各种指标（包括精确度排名、多样性、公平性）上提升当前推荐算法的性能。具体而言，与现有方法相比，我们的框架在代表性的NDCG指标上可实现多达34.7%的性能提升。代码可在https://github.com/renqii/DVR获取。