LLM2D

摘要

arXiv:2504.04238v1 声称类型: cross 摘要：本文从机械主义角度探讨了大型语言模型（LLMs）中理论即心态（ToM）能力的涌现，重点关注极稀疏参数模式的作用。我们引入了一种新的方法来识别ToM敏感参数，并揭示出仅仅扰动这些参数的0.001%即可显著降低ToM性能，同时也会损害语境定位和语言理解。为了理解这一效果，我们分析了这些参数与LLMs核心架构组件的相互作用。我们的研究发现，这些敏感参数与位置编码模块密切相关，尤其是在使用旋转位置嵌入（RoPE）的模型中，扰动破坏了对语境处理至关重要的主导频率激活。此外，我们还证明，扰动ToM敏感参数会通过位置编码调节查询和密钥之间的角度，从而影响LLMs的注意力机制。这些洞察为理解LLMs如何获取社会推理能力提供了更深层次的理解，将AI可解释性与认知科学联系起来。我们的研究结果对提升模型对齐、缓解偏见以及改进旨在与人类互动的AI系统具有重要意义。