LLM2D

摘要

arXiv:2410.24175v2 宣布类型: replace-cross 摘要：大型语言模型（LLMs）在格式、长度等复杂约束的指令遵循方面表现出困难。沿用传统的指令调优实践，之前的工作通过将复杂的指令输入到高级LLM中生成复杂的指令-响应对来进行后训练。然而，即使是高级LLM也无法很好地遵循复杂的指令，从而限制了生成数据的质量。在本工作中，我们发现现有数据集本身固有地包含隐含的复杂约束，并提出了一种新颖的数据生成技术——约束反翻译。具体来说，我们利用现有数据集中高质量的指令-响应对，并仅采用先进的LLM对指令添加已由响应满足的复杂约束，这自然减少了成本和数据噪音。在实验中，我们使用Llama3-70B-Instruct进行约束反翻译，创建了一个高质量的复杂指令-响应数据集，命名为CRAB。我们展示了在CRAB上的后训练提高了多个骨干LLM的复杂指令遵循能力，评估了广泛的指令遵循基准。我们还发现，约束反翻译作为一种有用的辅助训练目标，在后训练中也发挥着作用。我们的代码、数据和模型将被发布，以促进未来的研究。