摘要
arXiv:2409.13764v1 公告类型: 交叉 摘要: 本文提出了一项新颖的任务,通过局部扰动和自我解释来评估大型语言模型(LLMs)的忠实度。许多LLMs在回答某些问题时通常需要额外的上下文。为此,我们提出了一种新的高效替代解释性技术,灵感来自于常用的留一法。通过这种方法,我们识别出LLM生成正确答案所需的充分和必要部分,作为解释。我们提出了一种评估忠实度的指标,该指标将这些关键部分与模型的自我解释进行比较。使用Natural Questions数据集,我们验证了我们的方法,展示了其在解释模型决策和评估忠实度方面的有效性。