摘要
arXiv:2504.14147v1 宣传类型: 横贯性
摘要: 近年来在可解释推荐方面的进步大大提升了用户体验,通过阐明决策逻辑。然而,现有的方法实际上由于依赖于传统监督学习范式,在稀疏交互数据中无法提供有效的反馈信号,从而无法为更好的或更差的生成解释提供有效的反馈。为了解决这些问题,我们提出了一种新颖的人类似反馈驱动的优化框架。该框架采用了一种动态交互优化机制,以实现以人为中心的可解释性需求,而无需高昂的劳动力成本。具体而言,我们建议使用大型语言模型(LLMs)作为人类模拟器,预测人的反馈来引导学习过程。为了使LLMs深刻理解任务本质并满足用户多样化的个性化需求,我们引入了一种由人类引导定制的奖励评分方法,这有助于激发LLMs的语言理解和逻辑推理能力。此外,考虑到不同解释质量视角之间的潜在冲突,我们引入了一种原则性的帕累托优化,将多视角质量增强任务转化为多目标优化问题,以提高解释性能。最后,为了实现高效的模型训练,我们设计了一种基于策略的优化管道。通过引入重播缓冲区并解决数据分布偏差问题,可以有效提高数据利用效率并增强模型的一般性。在四个数据集上的广泛实验表明了我们方法的优越性。