LLM2D

摘要

arXiv:2502.05224v1 安全类型：cross 摘要：大语言模型（LLMs）已经在理解和生成人类语言文本方面取得了显著的进步，这在近年来受到了越来越多的关注。除了它们在自然语言处理（NLP）性能上的先进表现，考虑到它们在医学、金融、教育等许多行业中的广泛应用，对其使用的安全问题也在同步增长。近年来，随着对抗这些后门攻击的防御机制的进步和LLMs本身更为发达的功能，后门攻击的演变也不断推进。在本文中，我们采用了一般的机器学习攻击分类框架之一，对其进行分类——训练时白盒后门攻击。除了系统地分类攻击方法外，我们还考虑了针对后门攻击的相应防御方法。通过提供迄今为止已有的工作的详尽综述，我们希望此调查能够作为指导未来研究的指南，进一步扩展攻击场景并为更稳健的LLMs创建更强的防御。