LLM2D

摘要

在上下文学习中，大型语言模型（LLM）在许多自然语言处理任务中取代了传统方法，尤其是在小样本场景下。尽管应用广泛，但上下文学习容易受到恶意攻击。在这项工作中，我们提出了关于这种范式的安全问题。我们的研究表明，攻击者可以通过污染演示上下文来操纵大型语言模型的行为，而无需对模型进行微调。具体来说，我们设计了一种新的后门攻击方法，名为 ICLAttack，针对基于上下文学习的大型语言模型。我们的方法包括两种类型的攻击：污染演示示例和污染演示提示，这可以使模型的行为与预定义的意图一致。ICLAttack 不需要额外的微调来植入后门，从而保留模型的通用性。此外，被污染的示例被正确标记，增强了我们攻击方法的自然隐蔽性。在几个语言模型（参数范围从 13 亿到 1800 亿）上的大量实验结果证明了我们攻击方法的有效性，例如在 OPT 模型上的三个数据集上，平均攻击成功率高达 95.0%。