LLM2D
偏好一致性很重要:通过自动训练数据自我修正增强语言模型的偏好学习
Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora
作者: JoonHo Lee, JuYoun Son, Juree Seok, Wooseok Jang, Yeong-Dae Kwon
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2408.12799v2

摘要

arXiv:2408.12799v2 宣告类型: replace-cross 摘要:训练数据集中的不一致注释,特别是在偏好学习数据集中,给高级语言模型的开发带来了挑战。这些不一致性通常是由于注释者之间的变化性和偏好本身的多维性质所致。为解决这些问题,我们提出了一种自我校准方法,通过利用直接在这些数据集上训练的代理模型进行预处理。该方法通过自动检测和选择一致的注释来增强偏好学习。我们通过广泛的指令遵循任务进行了验证,展示了各学习算法和代理能力在各种任务上的性能改进幅度高达33%。本工作提供了一种简单可靠的解决方案,以解决偏好不一致性问题,无需依赖启发式方法,为开发更先进的偏好学习方法奠定了初步基础。代码可在 https://github.com/Self-Curation/ 获取。