LLM2D
逐步掌握:增强大型语言模型遵守软约束的能力
Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models
作者: Qingyu Ren, Jie Zeng, Qianyu He, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.04945v3

摘要

arXiv:2501.04945v3 宣告类型: replace-cross 摘要:对于大型语言模型(LLMs)而言,遵循涉及多种约束的指令至关重要。然而,增强LLMs遵循软约束能力的研究尚未被探索。为弥补这一差距,我们首先设计了一个流水线来自动构建具有高质量输出的数据集。此外,为了充分利用数据构建过程中生成的正样本和负样本,我们选择了直接偏好优化(DPO)作为训练方法。同时,考虑到由约束数量反映的软约束的难度,我们基于约束数量设计了一种分阶段学习训练范式。我们实验性地评估了我们方法在提高LLMs遵循软约束能力方面的有效性,并分析了推动改进的因素。该数据集和代码可在 https://github.com/Rainier-rq/FollowSoftConstraint 公开获取。