LLM2D
面向生成模型驱动的推荐系统综合性评估的研究
Toward Holistic Evaluation of Recommender Systems Powered by Generative Models
作者: Yashar Deldjoo, Nikhil Mehta, Maheswaran Sathiamoorthy, Shuai Zhang, Pablo Castells, Julian McAuley
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2504.06667v1

摘要

arXiv:2504.06667v1 交叉公告类型: cross 摘要: 由生成模型驱动的推荐系统(Gen-RecSys)超越了经典项目的排名,通过生成开放性内容,同时为用户提供了更丰富的体验,但也带来了新的风险。一方面,这些系统可以通过动态解释和多轮对话增强个性化和吸引力。另一方面,它们可能会进入未知领域,虚构不存在的项目,放大偏见,或泄露个人信息。传统的准确性度量无法全面捕捉这些挑战,因为它们无法衡量事实准确性、内容安全性或与用户意图的一致性。 本文做出了两项主要贡献。首先,我们将Gen-RecSys的评估挑战分为两类:(i) 由生成输出加剧的现有问题(例如,偏见、隐私)和(ii) 完全新的风险(例如,项目虚幻化、矛盾的解释)。其次,我们提出了一种全面的评估方法,包括基于场景的评估和多指标检查,涵盖了相关性、事实依据、偏见检测和政策合规性。我们的目标是提供一个指导框架,使研究人员和实践者能够全面评估Gen-RecSys,确保有效的个性化和负责任的部署。