LLM2D

摘要

忠实度可以说是评估可解释人工智能可靠性的最关键指标。在自然语言处理中，现有的忠实度评估方法充满了差异和偏差，往往无法捕捉到模型的真实推理。我们引入对抗性敏感性作为一种新颖的忠实度评估方法，重点关注解释器在模型受到对抗性攻击时的响应。我们的方法通过捕捉对对抗性输入变化的敏感性来衡量解释器的忠实度。这项工作解决了现有评估技术的重大局限性，此外，还从一个至关重要但尚未充分探索的范式量化了忠实度。