摘要
arXiv:2504.13192v1 公告类型:交叉
摘要:近年来,以大型语言模型(LLM)为基础的推荐系统(RecSys)在个性化用户体验方面取得了显著的进步,并引起了广泛关注。尽管取得了令人印象深刻的进展,但有关LLM-赋能的RecSys的安全漏洞的研究问题仍然很大程度上未被充分调查。鉴于安全和隐私的担忧,更实际的方法是专注于攻击黑盒RecSys,攻击者只能观察系统的输入和输出。然而,传统的使用强化学习(RL)代理的攻击方法由于处理复杂文本输入、规划和推理能力有限,并不适用于攻击LLM-赋能的RecSys。另一方面,由于LLMs具有模拟人类决策过程令人印象深刻的能力,它们为攻击RecSys提供了前所未有的机会。因此,在本文中,我们提出了一种名为CheatAgent的新攻击框架,利用LLMs的人类能力,开发了一个基于LLM的代理攻击LLM-赋能的RecSys。具体而言,我们的方法首先识别最小输入修改下的最大影响的插入位置。然后,设计LLM代理生成对抗性扰动并将其插入目标位置。为了进一步提高生成的扰动质量,我们通过从受害者RecSys获取反馈逐次迭代改进攻击策略。在三个真实世界的数据集上进行的广泛实验表明,我们提出的方法具有有效性。