LLM2D

摘要

arXiv:2502.04043v1 类别: cross 摘要：语言模型（LMs）可以生成看似准确且连贯的文本，但其中可能包含虚假或有毒的内容。在推理时对隐藏激活进行编辑的方法在引导LMs生成 desirable 生成方面显示出了令人鼓舞的结果。现有的激活干预方法通常包含一个激活探针来检测不 desirable 的生成，从而触发激活修改以引导后续生成。本文提出了一种名为 FLORAIN 的探针-free 干预方法，适用于特定激活层的所有注意力头。这种方法消除了训练用于探针目的的分类器的需求。干预函数由样本-wise 的非线性低秩映射参数化，通过最小化修改后的激活与其在 desirable 内容流形上的投影之间的距离来训练。在流形和投影距离的具体构造下，我们展示了可以通过求解平滑优化问题来高效地计算干预策略。基于多个基模型的实验结果表明，FLORAIN 在提升模型的准确性和质量方面，在生成和多项选择任务中均能一致地优于几种基线方法。