LLM2D
MACPO:基于多智能体对比偏好优化的弱到强对齐
MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization
作者: Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07672v1

摘要

随着大型语言模型 (LLM) 的快速发展并接近人类能力,使它们与人类价值观保持一致变得更加紧迫。在 LLM 胜过人类的情况下,我们面临着弱到强的对齐问题,需要通过弱教师生成的弱监督来有效地对齐强大的学生 LLM。现有的对齐方法主要集中在强到弱的对齐和自对齐设置上,将它们应用于更困难的弱到强的对齐设置是不切实际的。为了填补这一空白,我们提出了一种多智能体对比偏好优化 (MACPO) 框架。MACPO 通过反复强化不熟悉的积极行为,同时惩罚熟悉的消极行为,促使弱教师和强学生相互学习。为了实现这一点,我们设计了一种相互积极行为增强策略,鼓励弱教师和强学生相互学习对方的积极行为,并为下一轮迭代提供更高质量的积极行为。此外,我们提出了一种硬消极行为构建策略,通过对消极行为数据进行微调,诱导弱教师和强学生生成熟悉的消极行为。在 HH-RLHF 和 PKU-SafeRLHF 数据集上的实验结果表明,MACPO 同时提高了强学生和弱教师的对齐性能,使用自动指标和人工判断进行评估。此外,随着弱教师数量的增加,MACPO 通过更多轮迭代优化,实现了更好的弱到强的对齐性能。