摘要
随着通用大型语言模型 (LLMs) 的日益普及,人们对模型行为的更全面的解释的需求也随之增长。基于概念的解释为解释 LLMs 学习到的高级模式提供了一条有希望的途径。然而,它们的评估面临着独特的挑战,特别是因为它们在模型隐藏空间中的非局部性质和高维表示。目前的方法从不同的角度来处理概念,缺乏统一的正式化。这使得评估概念的核心指标,即忠实度或可读性,变得具有挑战性。为了弥合这一差距,我们引入了概念的正式定义,将其推广到各种基于概念的解释设置。在此基础上,我们通过扰动量化概念解释的忠实度。通过优化问题,我们确保在高维空间中对不同概念进行充分的扰动。可读性通过一种自动且确定性的度量来近似,该度量量化了最大程度地激活概念并与人类理解一致的模式的连贯性。最后,基于测量理论,我们应用了一种元评估方法来评估这些指标,该方法也适用于其他类型的解释或任务。已经进行了广泛的实验分析,以帮助选择解释评估指标。