LLM2D

摘要

arXiv:2504.06667v1 交叉公告类型: cross 摘要: 由生成模型驱动的推荐系统（Gen-RecSys）超越了经典项目的排名，通过生成开放性内容，同时为用户提供了更丰富的体验，但也带来了新的风险。一方面，这些系统可以通过动态解释和多轮对话增强个性化和吸引力。另一方面，它们可能会进入未知领域，虚构不存在的项目，放大偏见，或泄露个人信息。传统的准确性度量无法全面捕捉这些挑战，因为它们无法衡量事实准确性、内容安全性或与用户意图的一致性。本文做出了两项主要贡献。首先，我们将Gen-RecSys的评估挑战分为两类：(i) 由生成输出加剧的现有问题（例如，偏见、隐私）和(ii) 完全新的风险（例如，项目虚幻化、矛盾的解释）。其次，我们提出了一种全面的评估方法，包括基于场景的评估和多指标检查，涵盖了相关性、事实依据、偏见检测和政策合规性。我们的目标是提供一个指导框架，使研究人员和实践者能够全面评估Gen-RecSys，确保有效的个性化和负责任的部署。