摘要
大型语言模型 (LLM) 的发展对包括网络搜索、医疗保健和软件开发在内的各个领域产生了重大影响。然而,随着这些模型规模的扩大,它们更容易受到网络安全风险的影响,尤其是后门攻击。通过利用 LLM 强大的记忆能力,攻击者可以通过操纵一小部分训练数据轻松地将后门注入 LLM,从而在预定义的触发器激活隐藏的后门时导致下游应用程序出现恶意行为。此外,指令微调和来自人类反馈的强化学习 (RLHF) 等新兴学习范式加剧了这些风险,因为它们严重依赖于众包数据和人类反馈,而这些数据和反馈并非完全受控。本文对 LLM 开发或推理过程中出现的 LLM 后门威胁进行了全面概述,并涵盖了用于减轻 LLM 后门威胁的防御和检测策略的最新进展。我们还概述了应对这些威胁的关键挑战,并重点介绍了未来研究的领域。