LLM2D

摘要

arXiv:2502.05242v1 通知类型: 交叉摘要: 解释大型语言模型（LLMs）的隐藏表示是从理解LLMs的内在推理逻辑和提高其在应用场景中的可靠性这一角度出发的一个视角。然而，以前的方法引入了外部的“黑盒”模块来解释“黑盒”LLMs，这增加了潜在的不确定性并未能提供忠实的解释。本文中，我们提出了一种自解释方法SEER，通过在表示空间中聚合相同的概念并分离不同的概念，增强LLMs的可解释性。通过这种方式，SEER能够同步LLMs的输出和忠实的解释。此外，我们还在相关的可信性任务（例如，安全风险分类和去毒任务）中展示了SEER的应用，其中自解释的LLMs在可解释性和性能方面都取得了持续的改进。更为关键的是，我们通过最优传输理论理论分析了SEER在提高LLMs的泛化能力方面的改进。