摘要
指令微调(IFT)通过监督学习激发了大语言模型(LLMs)的指令跟随能力,并引导其行为。然而,现有基于开源IFT数据集训练的模型仅具备跟随用户指令的能力,往往无法遵循开发者指定的复杂角色和规则,即系统提示。这种遵循角色和规则的能力对于部署至关重要,因为它确保模型在开发者定义的指南内安全地与用户互动。为了提升这种角色和规则跟随能力,我们提出了\model,一个自动化的数据生成管道,从现有IFT指令中生成多样化的角色和规则,并生成相应的响应。这些数据随后可用于训练遵循复杂系统提示的模型。这些模型在我们的新创建的角色和规则跟随能力基准测试以及标准指令跟随基准测试和通用NLP任务中进行了评估。我们的框架显著提升LLMs的角色和规则跟随能力,实验结果显示,在Alpaca和Ultrachat数据集上,规则遵守率(即遵循所有要求)提高了超过25%。此外,我们的模型在实现这一提升的同时,并未在流行的指令跟随基准测试中出现性能下降。