摘要
arXiv:2502.14671v1 类型: cross
摘要: 近年来,人工智能的进步催生了大型语言模型(LLMs),这些模型不仅实现了类人的性能,还与大脑的语言处理机制共享了计算原理。尽管之前的研究主要关注于使LLMs的内部表示与神经活动对齐,但我们引入了一种新的方法,利用可解释的人工智能(XAI)方法在两个领域之间建立更深层次的联系。通过归因方法,我们量化了前一个词语对LLM下一个词预测的贡献,并利用这些解释来预测参与者听相同叙述时的fMRI记录。我们的发现表明,归因方法在语言网络中稳健地预测了大脑活动,超过了早期语言区域的传统内部表示。这种对齐是分级的:早期层的解释对应于大脑语言处理的初始阶段,而后期层则与更高级的阶段对齐。此外, 对LLM下一个词预测影响更大的层——那些具有更高归因评分的层——与神经活动的对齐更为强烈。这项工作建立了人工智能和神经科学之间的双向桥梁。首先,我们证明了归因方法提供了一种强大的视角来研究语言理解的神经机制,揭示了意义是如何从先前的语境中浮现的。其次,我们提出使用大脑对齐作为评估归因方法有效性的指标,提供了一个评估其生物学合理性的框架。