摘要
arXiv:2502.12446v1 交叉类型公告
摘要:推理时干预(ITI)已经成为一种有前途的方法,通过在不昂贵地更新大型语言模型(LLM)参数的情况下干预token表示,来引导LLM的行为朝着特定方向(例如,提高有用性)发展。然而,现有的ITI方法无法扩展到具有一致性冲突的多属性设置中,例如,在提高有用性的同时减少有害性。为了解决这一问题,我们提出了多属性定向引导(MAT-Steer)这一新颖的引导框架,它旨在在多个属性上对选定的token级进行干预。MAT-Steer 使用对其内部表示进行对齐的目标,将模型对不 desirable 输出的表示移向 desirable 输出的表示,同时在不同属性的向量之间强制稀疏性和正交性,从而减少属性间的冲突。我们在两种不同的场景中评估了MAT-Steer:(i)问答(QA)任务中,我们平衡了像真实性和偏见这样的属性;(ii)生成任务中,我们同时改善了像有用性、正确性和连贯性这样的属性。MAT-Steer 在两种任务类型中均优于现有ITI和参数高效微调方法(例如,在问答任务中平均提高了3%的准确性,在对抗最佳ITI基线中的胜率达到了55.82%)。