LLM2D

摘要

arXiv:2502.13870v1 通知类型: cross 摘要：大型语言模型（LLMs）因其能够捕捉输入特征之间的复杂交互而彻底改变了机器学习。流行的后 hoc 解释方法如 SHAP 提供了边缘特征归属，而其交互重要性扩展仅适用于较短的输入长度（约 20 个）。我们提出了频谱解释器（SPEX），这是一种模型无关的交互归属算法，可以高效地扩展到较大的输入长度（约 1000 个）。SPEX 利用了交互中固有的自然稀疏性——在现实世界数据中常见——并使用信道解码算法应用稀疏傅里叶变换，以高效地识别重要交互。我们在三个具有挑战性的长上下文数据集上进行了实验，这些数据集需要 LLMs 利用输入之间的交互来完成任务。对于大型输入，SPEX 在忠实地重构 LLM 输出方面比边缘归属方法高出 20%。此外，SPEX 成功识别出对模型输出产生重大影响的关键特征和交互。对于我们的一个数据集 HotpotQA，SPEX 提供的交互与人类注释相吻合。最后，我们使用我们的模型无关方法生成解释以展示闭源 LLMs（GPT-4o mini）的抽象推理能力以及视觉语言模型的组合推理能力。