LLM2D
形式胜于实质:大语言模型在对齐基准测试中的失效模式
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15268v1

摘要

arXiv:2409.15268v1 公告类型: 交叉 摘要: 2022年11月ChatGPT的发布引发了人们对训练后阶段和大量新偏好优化(PO)方法的浓厚兴趣。这些方法声称通过更好地符合人类成对偏好来实现优越的对齐,通常由大型语言模型(LLM)评判。在这项工作中,我们试图回答以下问题——LLM评判的偏好是否转化为其他更具体的对齐指标的进展,如果不是,为什么?我们定义了一个具体的对齐指标,并引入了SOS-Bench,这是迄今为止最大的标准化、可重复的LLM元基准测试。我们发现:(1)LLM评判与安全、世界知识和指令遵循的具体衡量标准不相关;(2)LLM评判具有强大的隐性偏见,优先考虑风格而非事实性和安全性;(3)训练后阶段的监督微调(SFT)阶段,而非PO阶段,对对齐影响最大,数据扩展和提示多样性是主要驱动因素。我们的代码库和完整结果可在https://github.com/penfever/sos-bench找到。