LLM2D

摘要

arXiv:2410.17714v2 通知类型: 替换-交叉摘要：大规模语言模型（LLMs）通过在大量数据上进行预训练，实现了出色的性能。这使得它们能够高效地适应各种下游任务。然而，其内部机制的缺乏解释性限制了对LLMs的有效引导以适应特定应用的能力。在这项工作中，我们从认知角度出发，利用眼动测量研究LLMs的内在机制。具体来说，我们分析了人类认知指标与LLM表示之间的逐层相关性。基于这些见解，我们提出了一种启发式方法，用于选择最佳调节层以调整LLM语义。为此，我们引入了一种基于参数高效微调方法的高效选择性层干预，传统上调整所有层或仅最后一层。此外，我们还在推理期间提出了一种隐式层对比干预，以使LLMs偏离有毒输出。在使用GPT-2、LLaMa2-7B和Mixtral-7B进行的自然语言理解、推理和生成任务的广泛实验中，展示了我们方法的有效性和效率。作为一种模型无关的框架，它增强了LLMs的解释性，同时提高了安全部署的效率。