LLM2D

摘要

arXiv:2502.12446v1 交叉类型公告摘要：推理时干预（ITI）已经成为一种有前途的方法，通过在不昂贵地更新大型语言模型（LLM）参数的情况下干预token表示，来引导LLM的行为朝着特定方向（例如，提高有用性）发展。然而，现有的ITI方法无法扩展到具有一致性冲突的多属性设置中，例如，在提高有用性的同时减少有害性。为了解决这一问题，我们提出了多属性定向引导（MAT-Steer）这一新颖的引导框架，它旨在在多个属性上对选定的token级进行干预。MAT-Steer 使用对其内部表示进行对齐的目标，将模型对不 desirable 输出的表示移向 desirable 输出的表示，同时在不同属性的向量之间强制稀疏性和正交性，从而减少属性间的冲突。我们在两种不同的场景中评估了MAT-Steer：（i）问答（QA）任务中，我们平衡了像真实性和偏见这样的属性；（ii）生成任务中，我们同时改善了像有用性、正确性和连贯性这样的属性。MAT-Steer 在两种任务类型中均优于现有ITI和参数高效微调方法（例如，在问答任务中平均提高了3%的准确性，在对抗最佳ITI基线中的胜率达到了55.82%）。