LLM2D
大型语言模型(LLMs)中的后门威胁综述:攻击、防御与评估
A Survey on Backdoor Threats in Large Language Models (LLMs): Attacks, Defenses, and Evaluations
作者: Yihe Zhou, Tao Ni, Wei-Bin Lee, Qingchuan Zhao
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05224v1

摘要

arXiv:2502.05224v1 安全类型:cross 摘要:大语言模型(LLMs)已经在理解和生成人类语言文本方面取得了显著的进步,这在近年来受到了越来越多的关注。除了它们在自然语言处理(NLP)性能上的先进表现,考虑到它们在医学、金融、教育等许多行业中的广泛应用,对其使用的安全问题也在同步增长。近年来,随着对抗这些后门攻击的防御机制的进步和LLMs本身更为发达的功能,后门攻击的演变也不断推进。在本文中,我们采用了一般的机器学习攻击分类框架之一,对其进行分类——训练时白盒后门攻击。除了系统地分类攻击方法外,我们还考虑了针对后门攻击的相应防御方法。通过提供迄今为止已有的工作的详尽综述,我们希望此调查能够作为指导未来研究的指南,进一步扩展攻击场景并为更稳健的LLMs创建更强的防御。