LLM2D
基于表征工程的语言模型中对齐与帮助性之间的权衡
Tradeoffs Between Alignment and Helpfulness in Language Models with Representation Engineering
作者: Yotam Wolf, Noam Wies, Dorin Shteyman, Binyamin Rothberg, Yoav Levine, Amnon Shashua
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2401.16332v4

摘要

语言模型对齐已成为人工智能安全的重要组成部分,通过增强理想行为并抑制不良行为,实现人与语言模型之间的安全互动。对齐通常通过调整模型或插入预设对齐提示来实现。最近,表示工程,一种通过改变模型训练后的表示来改变模型行为的方法,已被证明在对齐大型语言模型 (LLM) 方面有效(Zou 等人,2023a)。表示工程在对齐导向的任务中取得了收益,例如对抗攻击抵抗力和社会偏见减少,但也显示出导致模型执行基本任务的能力下降。在本文中,我们研究了模型对齐增强与有用性下降之间的权衡。我们提出了一种理论框架,为这两个量提供界限,并证明了它们的经验相关性。首先,我们发现,在我们的框架条件下,表示工程可以保证对齐,同时也会损害有用性。其次,我们表明,有用性随着表示工程向量的范数二次方下降,而对齐则与其线性增加,表明存在一种使用表示工程的有效方案。我们通过实验证实了我们的发现,并绘制了表示工程对齐有用性的边界。