LLM2D

摘要

arXiv:2502.14671v3 公告类型：替换-交叉摘要：大型语言模型 (LLMs) 不仅表现出类似人类的表现，而且还与大脑的语言处理机制共享计算原理。尽管先前的研究重点在于将LLMs的内部表示映射到神经活动，但我们提出了一种新的方法，即将可解释人工智能 (XAI) 用于加强这种联系。通过应用归因方法，我们量化了前一个词对LLMs下一个词预测的影响，并使用这些解释来预测参与者听故事时的fMRI数据。我们发现，归因方法在语言网络中稳健地预测大脑活动，揭示了一个分层模式：早期层的解释与大脑最初的语言处理阶段相吻合，而较晚的层对应于更高级的阶段。此外，对下一个词预测影响较大的层（体现在更高的归因分数上）显示出更强的大脑对齐。这些结果强调了XAI在探索语言的神经基础方面的潜力，并且表明大脑对齐可以用于评估解释方法的生物合理性。