LLM2D

摘要

arXiv:2504.08798v1 宣布类型: cross 摘要: 文本对抗样本对自然语言处理系统的可靠性构成了严重威胁。最近的研究表明，对抗样本往往会偏离正常文本的基本流形，而预训练的掩码语言模型可以近似正常数据的基本流形。这些发现启发了使用掩码语言模型检测文本对抗攻击的探索。我们首先介绍了基于掩码语言模型检测（MLMD）的方法，利用掩码语言建模（MLM）目标中的掩码和取消掩码操作来诱导正常文本和对抗文本之间流形变化的差异。尽管MLMD实现了竞争力的检测性能，但其耗时的一对一掩码策略引入了显著的计算开销。我们的后验分析表明，输入中大量的非关键词在检测中并不重要，但消耗了资源。基于此，我们引入了基于梯度的MLMD（GradMLMD），该方法利用梯度信息来识别并跳过检测过程中的非关键词，显著减少了资源消耗而不影响检测性能。