LLM2D

摘要

自然语言处理领域的最新进展以及大型语言模型的广泛应用暴露了新的安全漏洞，例如后门攻击。以往的后门攻击需要在模型分发后进行输入操作以激活后门，这在现实应用中存在局限性。为了填补这一空白，我们引入了一种新颖的基于断言引导的后门攻击（CGBA），它利用固有的文本断言作为触发器，消除了对这种操作的需求。CGBA 利用断言提取、聚类和目标训练来欺骗模型，使其在目标断言上出现故障，而不会影响其在干净数据上的性能。CGBA 在各种数据集和模型上展示了其有效性和隐蔽性，极大地提高了实际后门攻击的可行性。我们的代码和数据将在 https://github.com/PaperCGBA/CGBA 上提供。