摘要
arXiv:2502.14671v3 公告类型:替换-交叉
摘要:大型语言模型 (LLMs) 不仅表现出类似人类的表现,而且还与大脑的语言处理机制共享计算原理。尽管先前的研究重点在于将LLMs的内部表示映射到神经活动,但我们提出了一种新的方法,即将可解释人工智能 (XAI) 用于加强这种联系。通过应用归因方法,我们量化了前一个词对LLMs下一个词预测的影响,并使用这些解释来预测参与者听故事时的fMRI数据。我们发现,归因方法在语言网络中稳健地预测大脑活动,揭示了一个分层模式:早期层的解释与大脑最初的语言处理阶段相吻合,而较晚的层对应于更高级的阶段。此外,对下一个词预测影响较大的层(体现在更高的归因分数上)显示出更强的大脑对齐。这些结果强调了XAI在探索语言的神经基础方面的潜力,并且表明大脑对齐可以用于评估解释方法的生物合理性。