LLM2D
使用 fuzzed 随机化平滑技术验证语言模型的鲁棒性:一种针对后门攻击的高效防御方法
Certifying Language Model Robustness with Fuzzed Randomized Smoothing: An Efficient Defense Against Backdoor Attacks
作者: Bowei He, Lihao Yin, Hui-Ling Zhen, Jianping Zhang, Lanqing Hong, Mingxuan Yuan, Chen Ma
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.06892v1

摘要

arXiv:2502.06892v1 安全类型:交叉 摘要:预训练语言模型(PLMs)的广泛应用使其暴露在文本后门攻击之下,特别是那些在预训练阶段植入的攻击。这些攻击对高可靠性的应用程序构成了重大风险,因为它们可以偷偷影响多个下游任务。尽管认证针对这些威胁的鲁棒性至关重要,但现有防御措施难以应对文本数据的高维度和相互依赖性,以及无法访问原始受污染的预训练数据。为了解决这些挑战,我们介绍了**F**uzzed **R**andomized **S**moothing (**FRS**),这是一种新的方法,用于高效地认证语言模型在后门攻击下的鲁棒性。FRS将软件鲁棒性认证技术与双阶段模型参数平滑相结合,使用蒙特卡罗树搜索进行主动模糊测试,在Damerau-Levenshtein空间内识别易受攻击的文本段落。这使得可以针对特定文本进行高效随机化,而在进行模型平滑时无需访问受污染的训练数据。我们的理论分析表明,FRS在鲁棒性认证范围方面优于现有方法。广泛的数据集、模型配置和攻击策略实验验证了FRS在防御效率、准确性和鲁棒性方面具有优势。