摘要
在上下文学习中,大型语言模型(LLM)在许多自然语言处理任务中取代了传统方法,尤其是在小样本场景下。尽管应用广泛,但上下文学习容易受到恶意攻击。在这项工作中,我们提出了关于这种范式的安全问题。我们的研究表明,攻击者可以通过污染演示上下文来操纵大型语言模型的行为,而无需对模型进行微调。具体来说,我们设计了一种新的后门攻击方法,名为 ICLAttack,针对基于上下文学习的大型语言模型。我们的方法包括两种类型的攻击:污染演示示例和污染演示提示,这可以使模型的行为与预定义的意图一致。ICLAttack 不需要额外的微调来植入后门,从而保留模型的通用性。此外,被污染的示例被正确标记,增强了我们攻击方法的自然隐蔽性。在几个语言模型(参数范围从 13 亿到 1800 亿)上的大量实验结果证明了我们攻击方法的有效性,例如在 OPT 模型上的三个数据集上,平均攻击成功率高达 95.0%。