LLM2D
约束反译改善了大型语言模型执行复杂指令的能力
Constraint Back-translation Improves Complex Instruction Following of Large Language Models
作者: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
发布日期: 4/30/2025
arXiv ID: oai:arXiv.org:2410.24175v2

摘要

arXiv:2410.24175v2 宣布类型: replace-cross 摘要:大型语言模型(LLMs)在格式、长度等复杂约束的指令遵循方面表现出困难。沿用传统的指令调优实践,之前的工作通过将复杂的指令输入到高级LLM中生成复杂的指令-响应对来进行后训练。然而,即使是高级LLM也无法很好地遵循复杂的指令,从而限制了生成数据的质量。在本工作中,我们发现现有数据集本身固有地包含隐含的复杂约束,并提出了一种新颖的数据生成技术——约束反翻译。具体来说,我们利用现有数据集中高质量的指令-响应对,并仅采用先进的LLM对指令添加已由响应满足的复杂约束,这自然减少了成本和数据噪音。在实验中,我们使用Llama3-70B-Instruct进行约束反翻译,创建了一个高质量的复杂指令-响应数据集,命名为CRAB。我们展示了在CRAB上的后训练提高了多个骨干LLM的复杂指令遵循能力,评估了广泛的指令遵循基准。我们还发现,约束反翻译作为一种有用的辅助训练目标,在后训练中也发挥着作用。我们的代码、数据和模型将被发布,以促进未来的研究。