LLM2D
拆解屈折语中的鲁棒性:对抗性评估与机制性洞察
Unpacking Robustness in Inflectional Languages: Adversarial Evaluation and Mechanistic Insights
作者: Pawe{\l} Walkowiak, Marek Klonowski, Marcin Oleksy, Arkadiusz Janz
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07856v1

摘要

arXiv:2505.07856v1 声明类型: cross 摘要: 在生成对抗样本的过程中使用了各种技术,包括如 TextBugger 这样的方法,该方法在单词中引入了微小且难以察觉的扰动,从而改变了模型的行为。另一类技术是用同义词替换单词,这种方式保留了文本的意义,但改变了其预测类别,TextFooler 是这种攻击的典型例子。大多数对抗样本生成方法主要是针对非屈折语,通常是英语。在本工作中,我们评估了对抗攻击在屈折语中的表现。为了解释屈折对模型行为的影响及其在攻击下的鲁棒性,我们设计了一种新的协议,灵感来源于机械可解释性,并基于边缘归因补丁(EAP)方法。该提出的评估协议依赖于平行的任务特定语料库,该语料库包含两种语言——波兰语和英语——中的屈折和合数变体文本。为了分析模型并解释屈折与对抗鲁棒性之间的关系,我们基于面向任务的数据集 MultiEmo 创建了一个新的基准,这使得可以在模型中识别出与屈折相关的机械性元件,并分析这些元件在攻击下的行为。