LLM2D
CogSteer:受认知启发的选择性层干预以高效引导大型语言模型
CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models
作者: Xintong Wang, Jingheng Pan, Liang Ding, Longyue Wang, Longqin Jiang, Xingshan Li, Chris Biemann
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2410.17714v2

摘要

arXiv:2410.17714v2 通知类型: 替换-交叉 摘要:大规模语言模型(LLMs)通过在大量数据上进行预训练,实现了出色的性能。这使得它们能够高效地适应各种下游任务。然而,其内部机制的缺乏解释性限制了对LLMs的有效引导以适应特定应用的能力。在这项工作中,我们从认知角度出发,利用眼动测量研究LLMs的内在机制。具体来说,我们分析了人类认知指标与LLM表示之间的逐层相关性。基于这些见解,我们提出了一种启发式方法,用于选择最佳调节层以调整LLM语义。为此,我们引入了一种基于参数高效微调方法的高效选择性层干预,传统上调整所有层或仅最后一层。此外,我们还在推理期间提出了一种隐式层对比干预,以使LLMs偏离有毒输出。在使用GPT-2、LLaMa2-7B和Mixtral-7B进行的自然语言理解、推理和生成任务的广泛实验中,展示了我们方法的有效性和效率。作为一种模型无关的框架,它增强了LLMs的解释性,同时提高了安全部署的效率。