摘要
大型语言模型的进步引发了这样一个问题:随着模型变得越来越复杂,人类只能对其进行弱监督,对齐技术将如何适应?弱到强模拟了这样一个场景,其中弱模型监督试图利用一个强大得多的模型的全部能力。这项工作将弱到强扩展到弱S到强,通过探索一个弱模型的集合来模拟人类意见的差异。置信度得分使用贝叶斯方法估计,以指导弱S到强泛化。此外,我们将弱S到强从文本分类任务扩展到文本生成任务,其中研究了更先进的监督策略。此外,直接偏好优化被应用于推进学生模型的偏好学习,超越了教师强迫的基本学习框架。结果证明了所提出方法对于强学生模型可靠性的有效性,显示出超级对齐的潜力。