摘要
基础语言模型(FLMs)如 BERT 及其变体在自然语言处理方面取得了显著成功。迄今为止,对 FLMs 的可解释性主要依赖于其自注意力层中的注意力权重。然而,这些注意力权重仅提供词级解释,无法捕捉到更高层次的结构,因此缺乏可读性和直观性。为了应对这一挑战,我们首先对概念解释进行了形式化定义,然后提出了一种变分贝叶斯框架,称为 VAriational Language Concept (VALC),以超越词级解释并提供概念级解释。我们的理论分析表明,我们的 VALC 找到了解释 FLM 预测的最佳语言概念。在几个真实世界数据集上的实证结果表明,我们的方法可以成功地为 FLMs 提供概念解释。