LLM2D

摘要

arXiv:2411.02442v2 宣告类型: replace-cross 摘要：使大型语言模型（LLMs）与人类意图对齐对于提升其在各种任务中的性能至关重要。标准对齐技术，如直接偏好优化（DPO），通常依赖于二元Bradley-Terry（BT）模型，但在捕捉人类偏好复杂性方面经常遇到困难，特别是在存在嘈杂或不一致标签以及频繁平局的情况下。为解决这些局限性，我们引入了Tie-rank Oriented Bradley-Terry模型（TOBT），这是一种扩展的BT模型，明确包含了平局，从而使偏好表示更加精炼。在此基础上，我们提出了Tie-rank Oriented Direct Preference Optimization（TODO），这是一种新颖的对齐算法，利用TOBT的三元排名系统来提高偏好对齐。在对Mistral-7B和Llama 3-8B模型进行的评估中，TODO在分布内和分布外数据集中始终优于DPO在建模偏好方面的性能。使用MT Bench以及Piqa、ARC-c和MMLU等基准测试进一步证明了TODO在对齐性能方面的优越性。值得注意的是，TODO在二元偏好对齐方面也表现出色，突显了其灵活性及其在更广泛的大规模语言模型对齐中的潜在应用。详细的实现细节可在 https://github.com/XXares/TODO 找到。