LLM2D
语言模型中的推理-记忆相互作用由单一方向介导
The Reasoning-Memorization Interplay in Language Models Is Mediated by a Single Direction
作者: Yihuai Hong, Dian Zhou, Meng Cao, Lei Yu, Zhijing Jin
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23084v1

摘要

arXiv:2503.23084v1 类型: cross 摘要:大规模语言模型(LLMs)在各种推理基准测试中表现出色,但之前的研究表明,它们有时在处理未见过的问题时可能会遇到困难,这可能是由于过度依赖记忆中的训练实例。然而,在文本生成过程中,LLMs 是如何在推理和记忆之间切换的具体条件仍然不清楚。在本文中,我们通过识别模型残差流中的一组线性特征,提供了LLMs 推理与记忆动态机制的机械性理解,这些特征管理推理与记忆召回之间的平衡。这些特征不仅能够区分推理任务与记忆密集型任务,还可以被操控以因果性地影响模型在推理任务上的表现。此外,我们展示了干预这些推理特征有助于模型在答案生成过程中更准确地激活最相关的解决问题能力。我们的发现为理解LLMs 中推理与记忆的内在机制提供了新的见解,并为开发更稳健和可解释的生成AI系统铺平了道路。