LLM2D

摘要

arXiv:2504.14147v1 宣传类型: 横贯性摘要: 近年来在可解释推荐方面的进步大大提升了用户体验，通过阐明决策逻辑。然而，现有的方法实际上由于依赖于传统监督学习范式，在稀疏交互数据中无法提供有效的反馈信号，从而无法为更好的或更差的生成解释提供有效的反馈。为了解决这些问题，我们提出了一种新颖的人类似反馈驱动的优化框架。该框架采用了一种动态交互优化机制，以实现以人为中心的可解释性需求，而无需高昂的劳动力成本。具体而言，我们建议使用大型语言模型（LLMs）作为人类模拟器，预测人的反馈来引导学习过程。为了使LLMs深刻理解任务本质并满足用户多样化的个性化需求，我们引入了一种由人类引导定制的奖励评分方法，这有助于激发LLMs的语言理解和逻辑推理能力。此外，考虑到不同解释质量视角之间的潜在冲突，我们引入了一种原则性的帕累托优化，将多视角质量增强任务转化为多目标优化问题，以提高解释性能。最后，为了实现高效的模型训练，我们设计了一种基于策略的优化管道。通过引入重播缓冲区并解决数据分布偏差问题，可以有效提高数据利用效率并增强模型的一般性。在四个数据集上的广泛实验表明了我们方法的优越性。