摘要
arXiv:2505.10212v1 类别: cross
摘要: 大型语言模型(LLMs)由于其非凡的自然语言理解和生成能力,在推荐场景中变得越来越重要。尽管对利用LLMs进行各种推荐任务的研究已取得显著进展,但对于它们是否在其训练数据中记住了公共推荐数据集却几乎没有进行验证。这很不可取,因为记忆减少了研究结果的普适性,因为在记忆数据集上进行基准测试并不能保证对未见过的数据集的泛化能力。此外,记忆会放大偏见,例如,一些流行项目可能会比其他项目被推荐得更频繁。
在本文中,我们研究了LLMs是否记住了公共推荐数据集。具体而言,我们检查了两个模型系列(GPT和Llama)的不同规模,重点关注推荐系统中使用最广泛的其中一个数据集:MovieLens-1M。首先,我们将数据集记忆定义为通过提示LLMs可以检索出项目属性、用户资料以及用户-项目交互的程度。其次,我们分析了记忆对推荐性能的影响。最后,我们检查了记忆在不同模型系列和模型规模之间的差异。我们的结果显示,所有模型在不同程度上都记忆了MovieLens-1M,且推荐性能与记忆程度相关。我们已将所有代码公开发布在:https://github.com/sisinflab/LLM-MemoryInspector