摘要
大型语言模型(LLMs)可以通过事后解释或思维链(Chain-of-Thought, CoT)解释来阐明其预测。然而,LLM可能会编造出听起来合理但实际上与其内在推理不符的解释。最近的研究设计了旨在评判事后或CoT解释的忠实度的测试。在这项工作中,我们认为这些忠实度测试并未衡量模型内部工作机制的忠实度,而是衡量其在输出层面的自我一致性。我们的贡献有三方面:i) 我们明确了在模型可解释性视角下忠实度测试的地位,将其重新定义为自我一致性测试。我们通过ii) 构建一个比较一致性库来强调这一评估,该库首次在11个开放的LLM和5个任务的共同基准上比较了现有测试——包括iii) 我们新的自我一致性度量CC-SHAP。CC-SHAP是一种细粒度的度量(而非测试),用于评估LLM的自我一致性。它比较了模型输入如何影响预测答案以及生成解释的过程。我们的细粒度CC-SHAP指标允许iii) 比较LLM在做出预测时的行为,并深入分析其他一致性测试的影响,这使我们更接近模型内部,而不仅仅是面向表面的输出测试,从而向衡量忠实度迈进了一步。我们的代码可在\url{https://github.com/Heidelberg-NLP/CC-SHAP}获取。