LLM2D

摘要

arXiv:2502.02671v1 宣布类型:交叉摘要：语言模型（LMs）的后训练阶段越来越多地依赖于以下两个阶段：(i) 知识精简，其中LM被训练以模仿一个较大的教师LM，和(ii) 从人类反馈强化学习（RLHF），其中通过优化奖励模型使LM对齐。在第二个RLHF阶段，一个已知的挑战是奖励作弊，即LM过度优化奖励模型。这种现象符合Goodhart定律，并可能导致对真正目标的性能下降。在本文中，我们研究了在知识精简过程中是否会出现类似的现象，我们称之为教师作弊。这可能是由于教师LM本身并不是真实分布的良好近似。为了研究这一点，我们提出了一种受控的实验设置，包括：(i) 一个代表真实分布的或先知LM，(ii) 由或先知生成的教师LM，和(iii) 由教师生成的学生LM。我们的实验揭示了以下见解。使用固定离线数据集进行精简时，会出现教师作弊现象；此外，我们可以通过观察优化过程是否偏离多项式收敛规律来检测它。相反，采用在线数据生成技术有效地减轻了教师作弊现象。更具体地，我们确定数据多样性是防止作弊的关键因素。总体而言，我们的研究结果为我们提供了关于精简对于构建稳健和高效LM的好处和限制的更深入理解。