LLM2D

摘要

大型语言模型（LLMs）可以通过事后解释或思维链（Chain-of-Thought, CoT）解释来阐明其预测。然而，LLM可能会编造出听起来合理但实际上与其内在推理不符的解释。最近的研究设计了旨在评判事后或CoT解释的忠实度的测试。在这项工作中，我们认为这些忠实度测试并未衡量模型内部工作机制的忠实度，而是衡量其在输出层面的自我一致性。我们的贡献有三方面：i) 我们明确了在模型可解释性视角下忠实度测试的地位，将其重新定义为自我一致性测试。我们通过ii) 构建一个比较一致性库来强调这一评估，该库首次在11个开放的LLM和5个任务的共同基准上比较了现有测试——包括iii) 我们新的自我一致性度量CC-SHAP。CC-SHAP是一种细粒度的度量（而非测试），用于评估LLM的自我一致性。它比较了模型输入如何影响预测答案以及生成解释的过程。我们的细粒度CC-SHAP指标允许iii) 比较LLM在做出预测时的行为，并深入分析其他一致性测试的影响，这使我们更接近模型内部，而不仅仅是面向表面的输出测试，从而向衡量忠实度迈进了一步。我们的代码可在\url{https://github.com/Heidelberg-NLP/CC-SHAP}获取。