LLM2D

摘要

arXiv:2504.02911v1 交叉公告类型：cross 摘要：特征归因（FA）方法是常见的后验方法，用于解释大型语言模型（LLMs）如何做出预测。因此，生成能够反映模型实际内部行为的忠实归因至关重要。在本文中，我们介绍了Noiser，这是一种基于扰动的FA方法，该方法对每个输入嵌入施加有界的噪声，并通过测量模型在部分扰动输入下的鲁棒性来获取输入归因。此外，我们提出了一个可答性度量，该度量使用一个受指令的法官模型来评估高评分的词汇在多大程度上足以恢复预测输出。通过在六个LLM和三个任务上进行全面评估，我们证明了Noiser在忠实性和可答性方面都优于现有的基于梯度、基于注意和基于扰动的FA方法，使其成为一种稳健且有效的解释语言模型预测的方法。