LLM2D
可解释地控制大型语言模型:特征引导的激活添加
Interpretable Steering of Large Language Models with Feature Guided Activation Additions
作者: Samuel Soo, Chen Guang, Wesley Teng, Chandrasekaran Balaganesh, Tan Guoxian, Yan Ming
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2501.09929v3

摘要

arXiv:2501.09929v3 报告类型: replace-cross 摘要:对大型语言模型(LLM)行为的有效和可靠控制是一项重大挑战。尽管添加引导向量到模型隐藏状态的激活引导方法是一种有前景的方法,但现有技术往往在影响模型输出方面缺乏精确性和可解释性。我们介绍了特征导向的激活添加(FGAA),这是一种利用对比激活添加(CAA)和稀疏自动编码器目标引导(SAE-TS)见解的新激活引导方法。FGAA在稀疏自动编码器(SAE)的潜在空间中操作,并使用优化技术选择所需的SAE特征,从而构建精确的引导向量,这些向量在保持导向模型输出连贯性的同时提供更好的引导效果。在这方面,对Gemma-2-2B和Gemma-2-9B模型在各种引导任务上的评估表明,FGAA在现有的CAA引导方法、SAE解码器引导和SAE-TS引导方法中表现出更优的效果。我们的结果还强调了在所有测试的引导方法中都存在的引导规模与通用模型能力之间的重要权衡。