LLM2D

摘要

大型语言模型的进步引发了这样一个问题：随着模型变得越来越复杂，人类只能对其进行弱监督，对齐技术将如何适应？弱到强模拟了这样一个场景，其中弱模型监督试图利用一个强大得多的模型的全部能力。这项工作将弱到强扩展到弱S到强，通过探索一个弱模型的集合来模拟人类意见的差异。置信度得分使用贝叶斯方法估计，以指导弱S到强泛化。此外，我们将弱S到强从文本分类任务扩展到文本生成任务，其中研究了更先进的监督策略。此外，直接偏好优化被应用于推进学生模型的偏好学习，超越了教师强迫的基本学习框架。结果证明了所提出方法对于强学生模型可靠性的有效性，显示出超级对齐的潜力。