摘要
2022 年 11 月 ChatGPT 的发布引发了人们对训练后阶段的极大兴趣,并涌现出大量新的偏好优化 (PO) 方法。这些方法声称通过与人类成对偏好更好地匹配来实现更高水平的对齐,通常由 LLM 评判者进行评估。在这项工作中,我们试图回答以下问题——LLM 评判者的偏好是否能转化为对齐的其他更具体指标的进步,如果不是,为什么?我们定义了一个具体的对齐指标,并引入了 SOS-Bench(Substance Outweighs Style Benchmark),据我们所知,它是迄今为止最大的标准化、可重复的 LLM 元基准。我们发现 (1) LLM 评判者的偏好与安全、世界知识和指令遵循的具体指标不相关;(2) LLM 评判者存在强大的隐性偏差,优先考虑风格而非真实性和安全性;(3) 训练后的监督微调 (SFT) 阶段,而不是 PO 阶段,对对齐的影响最大,数据扩展和提示多样性是驱动因素。我们的代码库和完整结果可以在 https://github.com/penfever/sos-bench 上找到。