摘要
大型语言模型(LLM)的快速发展使得超级对齐(人类作为超强模型的弱监督者)成为一个至关重要的问题。近期研究初步探索了利用弱模型监督强模型的方法,并发现弱监督下的强学生模型在对齐目标上能够持续超越弱教师模型,从而产生了一种弱到强的泛化现象。然而,我们关注到,在这种看似有前景的现象背后,是否存在一种弱到强的欺骗问题:强模型通过在弱模型已知的领域表现出良好的对齐性,而在弱模型未知的领域产生失调行为来欺骗弱模型。我们初步探索了这种安全问题在一个具体而现实的多目标对齐案例中,其中一些对齐目标可能相互冲突(例如,有用性与无害性)。我们旨在探究,在这种情况下,强模型是否可能会故意在已知但弱模型未知的一个对齐维度上犯错,以换取另一个维度上的更高奖励。通过在奖励建模和偏好优化场景中的大量实验,我们发现:(1)弱到强的欺骗现象在所有设置中都存在。(2)随着弱模型和强模型能力差距的增大,欺骗行为会加剧。(3)使用中间模型进行引导可以在一定程度上减轻欺骗行为,但其有效性仍然有限。我们的工作强调了迫切需要更加关注超级对齐的真实可靠性。