LLM2D
SPEX: 扩展特征交互解释以适应大语言模型
SPEX: Scaling Feature Interaction Explanations for LLMs
作者: Justin Singh Kang, Landon Butler, Abhineet Agarwal, Yigit Efe Erginbas, Ramtin Pedarsani, Kannan Ramchandran, Bin Yu
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13870v1

摘要

arXiv:2502.13870v1 通知类型: cross 摘要:大型语言模型(LLMs)因其能够捕捉输入特征之间的复杂交互而彻底改变了机器学习。流行的后 hoc 解释方法如 SHAP 提供了边缘特征归属,而其交互重要性扩展仅适用于较短的输入长度(约 20 个)。我们提出了频谱解释器(SPEX),这是一种模型无关的交互归属算法,可以高效地扩展到较大的输入长度(约 1000 个)。SPEX 利用了交互中固有的自然稀疏性——在现实世界数据中常见——并使用信道解码算法应用稀疏傅里叶变换,以高效地识别重要交互。我们在三个具有挑战性的长上下文数据集上进行了实验,这些数据集需要 LLMs 利用输入之间的交互来完成任务。对于大型输入,SPEX 在忠实地重构 LLM 输出方面比边缘归属方法高出 20%。此外,SPEX 成功识别出对模型输出产生重大影响的关键特征和交互。对于我们的一个数据集 HotpotQA,SPEX 提供的交互与人类注释相吻合。最后,我们使用我们的模型无关方法生成解释以展示闭源 LLMs(GPT-4o mini)的抽象推理能力以及视觉语言模型的组合推理能力。