LLM2D

摘要

随着大型语言模型 (LLM) 的快速发展并接近人类能力，使它们与人类价值观保持一致变得更加紧迫。在 LLM 胜过人类的情况下，我们面临着弱到强的对齐问题，需要通过弱教师生成的弱监督来有效地对齐强大的学生 LLM。现有的对齐方法主要集中在强到弱的对齐和自对齐设置上，将它们应用于更困难的弱到强的对齐设置是不切实际的。为了填补这一空白，我们提出了一种多智能体对比偏好优化 (MACPO) 框架。MACPO 通过反复强化不熟悉的积极行为，同时惩罚熟悉的消极行为，促使弱教师和强学生相互学习。为了实现这一点，我们设计了一种相互积极行为增强策略，鼓励弱教师和强学生相互学习对方的积极行为，并为下一轮迭代提供更高质量的积极行为。此外，我们提出了一种硬消极行为构建策略，通过对消极行为数据进行微调，诱导弱教师和强学生生成熟悉的消极行为。在 HH-RLHF 和 PKU-SafeRLHF 数据集上的实验结果表明，MACPO 同时提高了强学生和弱教师的对齐性能，使用自动指标和人工判断进行评估。此外，随着弱教师数量的增加，MACPO 通过更多轮迭代优化，实现了更好的弱到强的对齐性能。