LLM2D

摘要

语言模型对齐已成为人工智能安全的重要组成部分，通过增强理想行为并抑制不良行为，实现人与语言模型之间的安全互动。对齐通常通过调整模型或插入预设对齐提示来实现。最近，表示工程，一种通过改变模型训练后的表示来改变模型行为的方法，已被证明在对齐大型语言模型 (LLM) 方面有效（Zou 等人，2023a）。表示工程在对齐导向的任务中取得了收益，例如对抗攻击抵抗力和社会偏见减少，但也显示出导致模型执行基本任务的能力下降。在本文中，我们研究了模型对齐增强与有用性下降之间的权衡。我们提出了一种理论框架，为这两个量提供界限，并证明了它们的经验相关性。首先，我们发现，在我们的框架条件下，表示工程可以保证对齐，同时也会损害有用性。其次，我们表明，有用性随着表示工程向量的范数二次方下降，而对齐则与其线性增加，表明存在一种使用表示工程的有效方案。我们通过实验证实了我们的发现，并绘制了表示工程对齐有用性的边界。