LLM2D

摘要

arXiv:2504.11182v1 安全类型: cross 摘要：将大型语言模型（LLMs）与推荐系统（RecSys）融合极大地提升了个性化推荐，并引起了广泛的关注。尽管取得了显著的进步，基于LLM的RecSys在后门攻击下的安全性仍被大量忽视。在本文中，我们提出了一个新问题：是否可以在基于LLM的RecSys中注入一个特定的后门，使得在项目标题附加该后门触发器时，可以操控推荐响应？为了考察基于LLM的RecSys在面对后门攻击时的脆弱性，我们提出了一种新的攻击框架，称为推荐系统后门注入（BadRec）。BadRec通过在项目的标题中添加触发器并使用多个虚假用户与这些项目进行交互，有效地污染了训练集并将后门注入到了基于LLM的RecSys中。全面的实验表明，只需污染1%的训练数据，使用对抗样本即可成功植入后门，从而操控推荐。为了进一步缓解这种安全威胁，我们提出了一种通用防御策略，称为毒药扫描器（P-Scanner）。具体而言，我们引入了一种基于LLM的毒药扫描器，利用LLM强大的语言理解和丰富知识来检测被污染的项目。我们使用一个触发器增强代理生成多样化的合成触发器，以指导毒药扫描器学习被污染项目检测任务的领域特定知识。在三个真实世界数据集上的广泛实验验证了所提出的P-Scanner的有效性。