LLM2D

摘要

arXiv:2409.15268v1 公告类型: 交叉摘要: 2022年11月ChatGPT的发布引发了人们对训练后阶段和大量新偏好优化(PO)方法的浓厚兴趣。这些方法声称通过更好地符合人类成对偏好来实现优越的对齐，通常由大型语言模型(LLM)评判。在这项工作中，我们试图回答以下问题——LLM评判的偏好是否转化为其他更具体的对齐指标的进展，如果不是，为什么？我们定义了一个具体的对齐指标，并引入了SOS-Bench，这是迄今为止最大的标准化、可重复的LLM元基准测试。我们发现:(1)LLM评判与安全、世界知识和指令遵循的具体衡量标准不相关;(2)LLM评判具有强大的隐性偏见，优先考虑风格而非事实性和安全性;(3)训练后阶段的监督微调(SFT)阶段，而非PO阶段，对对齐影响最大，数据扩展和提示多样性是主要驱动因素。我们的代码库和完整结果可在https://github.com/penfever/sos-bench找到。