摘要
arXiv:2504.04238v1 声称类型: cross
摘要:本文从机械主义角度探讨了大型语言模型(LLMs)中理论即心态(ToM)能力的涌现,重点关注极稀疏参数模式的作用。我们引入了一种新的方法来识别ToM敏感参数,并揭示出仅仅扰动这些参数的0.001%即可显著降低ToM性能,同时也会损害语境定位和语言理解。为了理解这一效果,我们分析了这些参数与LLMs核心架构组件的相互作用。我们的研究发现,这些敏感参数与位置编码模块密切相关,尤其是在使用旋转位置嵌入(RoPE)的模型中,扰动破坏了对语境处理至关重要的主导频率激活。此外,我们还证明,扰动ToM敏感参数会通过位置编码调节查询和密钥之间的角度,从而影响LLMs的注意力机制。这些洞察为理解LLMs如何获取社会推理能力提供了更深层次的理解,将AI可解释性与认知科学联系起来。我们的研究结果对提升模型对齐、缓解偏见以及改进旨在与人类互动的AI系统具有重要意义。