LLM2D

摘要

arXiv:2501.04945v3 宣告类型: replace-cross 摘要：对于大型语言模型（LLMs）而言，遵循涉及多种约束的指令至关重要。然而，增强LLMs遵循软约束能力的研究尚未被探索。为弥补这一差距，我们首先设计了一个流水线来自动构建具有高质量输出的数据集。此外，为了充分利用数据构建过程中生成的正样本和负样本，我们选择了直接偏好优化（DPO）作为训练方法。同时，考虑到由约束数量反映的软约束的难度，我们基于约束数量设计了一种分阶段学习训练范式。我们实验性地评估了我们方法在提高LLMs遵循软约束能力方面的有效性，并分析了推动改进的因素。该数据集和代码可在 https://github.com/Rainier-rq/FollowSoftConstraint 公开获取。