LLM2D

摘要

arXiv:2504.14150v1 类别:跨学科摘要:大型语言模型（LLMs）能够生成关于它们是如何回答问题的合理解释。然而，这些解释可能会歪曲模型的“推理”过程，即它们可能是不忠诚的。这种情况又会导致过度信任和误用。我们提出了一种新的方法来衡量LLM解释的忠诚度。首先，我们提供了一个关于忠诚度的严格定义。由于LLM解释模仿人类解释，它们通常会引用输入问题中的高层概念，这些概念据称影响了模型。我们将忠诚度定义为LLM解释暗示是影响因素的概念集合与实际影响因素的概念集合之间的差异。接着，我们提出了一种新颖的方法来估计忠诚度，基于以下两点：（1）使用辅助LLM修改模型输入中概念的值以创建现实的反事实情境，（2）使用贝叶斯分层模型在实例级和数据集级量化概念的因果影响。我们的实验表明，我们的方法可以用于量化和发现不可解释性的可解释模式。在一项关于社会偏见的任务中，我们发现LLM解释隐藏了社会偏见的影响。在一项医学问答任务中，我们发现了LLM解释提供了关于哪些证据影响了模型决策的误导性声明的情况。