LLM2D
从文本分类到生成:贝叶斯弱到强方法
Bayesian WeakS-to-Strong from Text Classification to Generation
作者: Ziyun Cui, Ziyang Zhang, Wen Wu, Guangzhi Sun, Chao Zhang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2406.03199v2

摘要

大型语言模型的进步引发了这样一个问题:随着模型变得越来越复杂,人类只能对其进行弱监督,对齐技术将如何适应?弱到强模拟了这样一个场景,其中弱模型监督试图利用一个强大得多的模型的全部能力。这项工作将弱到强扩展到弱S到强,通过探索一个弱模型的集合来模拟人类意见的差异。置信度得分使用贝叶斯方法估计,以指导弱S到强泛化。此外,我们将弱S到强从文本分类任务扩展到文本生成任务,其中研究了更先进的监督策略。此外,直接偏好优化被应用于推进学生模型的偏好学习,超越了教师强迫的基本学习框架。结果证明了所提出方法对于强学生模型可靠性的有效性,显示出超级对齐的潜力。