LLM2D

摘要

arXiv:2502.12179v1 通告类型: 交叉摘要: 操纵方法通过操控大语言模型（LLM）的表示来诱导具有所需属性的响应，例如诚实性，为无需微调即可实现LLM对齐提供了有希望的方法。传统上，操纵依赖于监督，例如来自单个目标概念变化的对比性提示对，这种方法代价高昂且限制了操纵研究的速度。一种诱人的替代方法是使用稀疏自动编码器（SAEs）将LLM嵌入映射到捕捉可人为解释的概念的稀疏表示。然而，在没有任何进一步假设的情况下，SAEs可能会变得不可识别：它们可能会学习纠缠多个概念的潜在维度，从而导致对无关属性的无意操纵。我们引入了稀疏偏移自动编码器（SSAEs），它将嵌入之间的差异映射到稀疏表示。关键的是，我们展示了从变化的配对观察中推断SSAEs的可能性，这些观察涉及多个未知概念，从而能够在无需监督的情况下准确操纵单一概念。我们使用Llama-3.1嵌入在半合成和真实世界语言数据集上实证演示了准确的操纵。