摘要
arXiv:2502.02671v1 宣布类型:交叉
摘要:语言模型(LMs)的后训练阶段越来越多地依赖于以下两个阶段:(i) 知识精简,其中LM被训练以模仿一个较大的教师LM,和(ii) 从人类反馈强化学习(RLHF),其中通过优化奖励模型使LM对齐。在第二个RLHF阶段,一个已知的挑战是奖励作弊,即LM过度优化奖励模型。这种现象符合Goodhart定律,并可能导致对真正目标的性能下降。在本文中,我们研究了在知识精简过程中是否会出现类似的现象,我们称之为教师作弊。这可能是由于教师LM本身并不是真实分布的良好近似。为了研究这一点,我们提出了一种受控的实验设置,包括:(i) 一个代表真实分布的或先知LM,(ii) 由或先知生成的教师LM,和(iii) 由教师生成的学生LM。我们的实验揭示了以下见解。使用固定离线数据集进行精简时,会出现教师作弊现象;此外,我们可以通过观察优化过程是否偏离多项式收敛规律来检测它。相反,采用在线数据生成技术有效地减轻了教师作弊现象。更具体地,我们确定数据多样性是防止作弊的关键因素。总体而言,我们的研究结果为我们提供了关于精简对于构建稳健和高效LM的好处和限制的更深入理解。