摘要
arXiv:2502.12179v1 通告类型: 交叉
摘要: 操纵方法通过操控大语言模型(LLM)的表示来诱导具有所需属性的响应,例如诚实性,为无需微调即可实现LLM对齐提供了有希望的方法。传统上,操纵依赖于监督,例如来自单个目标概念变化的对比性提示对,这种方法代价高昂且限制了操纵研究的速度。一种诱人的替代方法是使用稀疏自动编码器(SAEs)将LLM嵌入映射到捕捉可人为解释的概念的稀疏表示。然而,在没有任何进一步假设的情况下,SAEs可能会变得不可识别:它们可能会学习纠缠多个概念的潜在维度,从而导致对无关属性的无意操纵。我们引入了稀疏偏移自动编码器(SSAEs),它将嵌入之间的差异映射到稀疏表示。关键的是,我们展示了从变化的配对观察中推断SSAEs的可能性,这些观察涉及多个未知概念,从而能够在无需监督的情况下准确操纵单一概念。我们使用Llama-3.1嵌入在半合成和真实世界语言数据集上实证演示了准确的操纵。