LLM2D
端到端学习稀疏干预以引导生成的activation学习
End-to-end Learning of Sparse Interventions on Activations to Steer Generation
作者: Pau Rodriguez, Michal Klein, Eleonora Gualdoni, Arno Blaas, Luca Zappella, Marco Cuturi, Xavier Suau
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2503.10679v2

摘要

arXiv:2503.10679v2 宣告类型:替换交叉 摘要:生成模型在日常生活中的日益广泛应用要求具备高效的控制机制,以便生成安全内容或为用户提供探索风格变化的工具。理想情况下,这些机制应该在训练时间和推理时间上都经济有效,同时保持输出质量。最近的研究表明,可以通过唯一干预模型激活来获得这类机制,目标是纠正使用来源数据集(如有毒和非有毒句子)与目标数据集的提示时所观察到的激活分布之间的差异。虽然这些快速方法经济高效,但它们本质上是粗糙的:它们仅在局部调整映射,而不考虑其对下游层的影响,导致在脱机使用时产生意外的变化。本文提出了一种线性端到端激活导向方法(LinEAS),该方法通过一个同时考虑所有层间分布变化的全局损失进行训练。与LinEAS一起使用的损失可以使用稀疏化范数进行规整,这可以自动执行神经元和层的选择。实验数据显示,LinEAS只需少量样本即可生效,并在减少毒性方面优于类似的基础方法,同时在性能上与更复杂的微调方法相当。我们展示了LinEAS干预的可组合性,研究了稀疏性对其性能的影响,并展示了其在文本到图像扩散中的应用。