LLM2D
聚合并征服:通过在多层中组合非线性预测器来检测和引导LLM概念
Aggregate and conquer: detecting and steering LLM concepts by combining nonlinear predictors over multiple layers
作者: Daniel Beaglehole, Adityanarayanan Radhakrishnan, Enric Boix-Adser\`a, Mikhail Belkin
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.03708v1

摘要

arXiv:2502.03708v1 交叉类型公告: 摘要:一个训练有素的大语言模型(Large Language Model,LLM)包含了大量的人类知识。然而,评估这些知识的范围或准确性是困难的,因为LLM并不总是“知道自己知道什么”,甚至可能会有意误导。在本文中,我们提供了一种一般方法来检测LLM内部激活中的语义概念。此外,我们展示了我们的方法可以轻松地适应以引导LLM产生期望的输出。我们的创新之处在于:(1)我们使用非线性特征学习方法来识别每个层中用于预测概念的重要线性方向;(2)我们在层间聚合特征来构建强大的概念检测器和引导机制。通过在七个基准测试中获得最先进的结果,我们展示了我们方法的威力,用于检测幻觉、危害性、有害内容以及不真实的内容。我们通过引导LLM趋向新的概念,展示了我们方法的普适性,这些新概念据我们所知在文献中未曾被考虑过,包括:语义消歧、人类语言、编程语言、幻觉响应、科学学科、诗歌/莎士比亚式英语,甚至多种概念同时。此外,我们的方法还可以引导具有数值属性的概念,例如产品评论。我们将在https://github.com/dmbeaglehole/neural_controllers 中提供我们的代码(包括我们方法的简单API)。