LLM2D
无探针低秩激活干预
Probe-Free Low-Rank Activation Intervention
作者: Chonghe Jiang, Bao Nguyen, Anthony Man-Cho So, Viet Anh Nguyen
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.04043v1

摘要

arXiv:2502.04043v1 类别: cross 摘要:语言模型(LMs)可以生成看似准确且连贯的文本,但其中可能包含虚假或有毒的内容。在推理时对隐藏激活进行编辑的方法在引导LMs生成 desirable 生成方面显示出了令人鼓舞的结果。现有的激活干预方法通常包含一个激活探针来检测不 desirable 的生成,从而触发激活修改以引导后续生成。本文提出了一种名为 FLORAIN 的探针-free 干预方法,适用于特定激活层的所有注意力头。这种方法消除了训练用于探针目的的分类器的需求。干预函数由样本-wise 的非线性低秩映射参数化,通过最小化修改后的激活与其在 desirable 内容流形上的投影之间的距离来训练。在流形和投影距离的具体构造下,我们展示了可以通过求解平滑优化问题来高效地计算干预策略。基于多个基模型的实验结果表明,FLORAIN 在提升模型的准确性和质量方面,在生成和多项选择任务中均能一致地优于几种基线方法。