摘要
arXiv:2502.00657v1 宣告类型: cross
摘要: 我们提出了一种理论框架,证明了包括基于人类反馈强化学习(RLHF)在内的流行的大语言模型(LLM)对齐方法本质上是衡量对齐(更青睐或更安全)和未对齐(不那么青睐或有害)分布之间偏离程度的估计器。这解释了在对齐后模型隐藏表示中安全提示与有害提示之间的分离现象。受到理论结果的启发,我们发现某些对齐方法在分离方面优于其他方法,并引入了一种新方法KLDO,并进一步证明了我们理论的意义。我们主张使用合规拒绝数据集而不是偏好数据集来增强安全性对齐,并且有理论推理和经验证据的支持。此外,为了量化安全性分离,我们利用表示空间中的距离度量,并对其作为预测LLM对牢笼攻击抵御能力的统计显著指标的有效性进行了统计验证。