LLM2D
增强大型语言模型一致性与三元偏好 컴퓨xing
TODO: Enhancing LLM Alignment with Ternary Preferences
作者: Yuxiang Guo, Lu Yin, Bo Jiang, Jiaqi Zhang
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2411.02442v2

摘要

arXiv:2411.02442v2 宣告类型: replace-cross 摘要:使大型语言模型(LLMs)与人类意图对齐对于提升其在各种任务中的性能至关重要。标准对齐技术,如直接偏好优化(DPO),通常依赖于二元Bradley-Terry(BT)模型,但在捕捉人类偏好复杂性方面经常遇到困难,特别是在存在嘈杂或不一致标签以及频繁平局的情况下。为解决这些局限性,我们引入了Tie-rank Oriented Bradley-Terry模型(TOBT),这是一种扩展的BT模型,明确包含了平局,从而使偏好表示更加精炼。在此基础上,我们提出了Tie-rank Oriented Direct Preference Optimization(TODO),这是一种新颖的对齐算法,利用TOBT的三元排名系统来提高偏好对齐。在对Mistral-7B和Llama 3-8B模型进行的评估中,TODO在分布内和分布外数据集中始终优于DPO在建模偏好方面的性能。使用MT Bench以及Piqa、ARC-c和MMLU等基准测试进一步证明了TODO在对齐性能方面的优越性。值得注意的是,TODO在二元偏好对齐方面也表现出色,突显了其灵活性及其在更广泛的大规模语言模型对齐中的潜在应用。详细的实现细节可在 https://github.com/XXares/TODO 找到。