LLM2D

摘要

arXiv:2505.07856v1 声明类型: cross 摘要: 在生成对抗样本的过程中使用了各种技术，包括如 TextBugger 这样的方法，该方法在单词中引入了微小且难以察觉的扰动，从而改变了模型的行为。另一类技术是用同义词替换单词，这种方式保留了文本的意义，但改变了其预测类别，TextFooler 是这种攻击的典型例子。大多数对抗样本生成方法主要是针对非屈折语，通常是英语。在本工作中，我们评估了对抗攻击在屈折语中的表现。为了解释屈折对模型行为的影响及其在攻击下的鲁棒性，我们设计了一种新的协议，灵感来源于机械可解释性，并基于边缘归因补丁（EAP）方法。该提出的评估协议依赖于平行的任务特定语料库，该语料库包含两种语言——波兰语和英语——中的屈折和合数变体文本。为了分析模型并解释屈折与对抗鲁棒性之间的关系，我们基于面向任务的数据集 MultiEmo 创建了一个新的基准，这使得可以在模型中识别出与屈折相关的机械性元件，并分析这些元件在攻击下的行为。