LLM2D

摘要

基础语言模型（FLMs）如 BERT 及其变体在自然语言处理方面取得了显著成功。迄今为止，对 FLMs 的可解释性主要依赖于其自注意力层中的注意力权重。然而，这些注意力权重仅提供词级解释，无法捕捉到更高层次的结构，因此缺乏可读性和直观性。为了应对这一挑战，我们首先对概念解释进行了形式化定义，然后提出了一种变分贝叶斯框架，称为 VAriational Language Concept (VALC)，以超越词级解释并提供概念级解释。我们的理论分析表明，我们的 VALC 找到了解释 FLM 预测的最佳语言概念。在几个真实世界数据集上的实证结果表明，我们的方法可以成功地为 FLMs 提供概念解释。