LLM2D

摘要

arXiv:2502.09022v1 宣布类型: 新增摘要：基于转换器的语言模型已经取得了显著的成功，但由于其内部推理机制受到复杂非线性相互作用和高维操作的影响，仍然存在很大的不透明性。尽管以往的研究表明这些模型隐式地编码了推理结构，但对于它们如何在复杂任务中使用特定的多步思维过程解决这些问题，仍然是不清楚的。为了解决这一差距，我们提出了一种新的机制性可解释性框架SICAF，旨在追踪和分析语言模型在多步推理任务中使用的推理策略。通过使用电路分析和自我影响函数，我们量化了推理过程中每个词的重要性演变，从而映射出模型用于推理的路径。将SICAF应用于GPT-2模型的间接宾语识别(IOI)预测任务，我们展示了内部电路如何揭示出与人类可解释性相一致的推理过程，为模型内部逻辑提供了新的见解。