LLM2D

摘要

忠实性可以说是评估可解释人工智能可靠性的最关键指标。在自然语言处理领域，当前的忠实性评估方法存在诸多差异和偏差，往往无法捕捉模型的真实推理过程。我们引入对抗性敏感性作为一种新颖的忠实性评估方法，重点关注模型在对抗性攻击下的解释器的响应。我们的方法通过捕捉对对抗性输入变化的敏感性来衡量解释器的忠实性。这项工作解决了现有评估技术中的重大局限性，并且进一步从一个至关重要但尚未充分探索的范式量化了忠实性。