LLM2D

摘要

arXiv:2503.10679v2 宣告类型：替换交叉摘要：生成模型在日常生活中的日益广泛应用要求具备高效的控制机制，以便生成安全内容或为用户提供探索风格变化的工具。理想情况下，这些机制应该在训练时间和推理时间上都经济有效，同时保持输出质量。最近的研究表明，可以通过唯一干预模型激活来获得这类机制，目标是纠正使用来源数据集（如有毒和非有毒句子）与目标数据集的提示时所观察到的激活分布之间的差异。虽然这些快速方法经济高效，但它们本质上是粗糙的：它们仅在局部调整映射，而不考虑其对下游层的影响，导致在脱机使用时产生意外的变化。本文提出了一种线性端到端激活导向方法（LinEAS），该方法通过一个同时考虑所有层间分布变化的全局损失进行训练。与LinEAS一起使用的损失可以使用稀疏化范数进行规整，这可以自动执行神经元和层的选择。实验数据显示，LinEAS只需少量样本即可生效，并在减少毒性方面优于类似的基础方法，同时在性能上与更复杂的微调方法相当。我们展示了LinEAS干预的可组合性，研究了稀疏性对其性能的影响，并展示了其在文本到图像扩散中的应用。