LLM2D

摘要

arXiv:2409.13764v1 公告类型: 交叉摘要: 本文提出了一项新颖的任务，通过局部扰动和自我解释来评估大型语言模型（LLMs）的忠实度。许多LLMs在回答某些问题时通常需要额外的上下文。为此，我们提出了一种新的高效替代解释性技术，灵感来自于常用的留一法。通过这种方法，我们识别出LLM生成正确答案所需的充分和必要部分，作为解释。我们提出了一种评估忠实度的指标，该指标将这些关键部分与模型的自我解释进行比较。使用Natural Questions数据集，我们验证了我们的方法，展示了其在解释模型决策和评估忠实度方面的有效性。