LLM2D

摘要

arXiv:2502.06892v1 安全类型：交叉摘要：预训练语言模型（PLMs）的广泛应用使其暴露在文本后门攻击之下，特别是那些在预训练阶段植入的攻击。这些攻击对高可靠性的应用程序构成了重大风险，因为它们可以偷偷影响多个下游任务。尽管认证针对这些威胁的鲁棒性至关重要，但现有防御措施难以应对文本数据的高维度和相互依赖性，以及无法访问原始受污染的预训练数据。为了解决这些挑战，我们介绍了**F**uzzed **R**andomized **S**moothing (**FRS**)，这是一种新的方法，用于高效地认证语言模型在后门攻击下的鲁棒性。FRS将软件鲁棒性认证技术与双阶段模型参数平滑相结合，使用蒙特卡罗树搜索进行主动模糊测试，在Damerau-Levenshtein空间内识别易受攻击的文本段落。这使得可以针对特定文本进行高效随机化，而在进行模型平滑时无需访问受污染的训练数据。我们的理论分析表明，FRS在鲁棒性认证范围方面优于现有方法。广泛的数据集、模型配置和攻击策略实验验证了FRS在防御效率、准确性和鲁棒性方面具有优势。