摘要
指令微调使语言模型能够更有效地泛化并更好地遵循用户意图。然而,获取指令数据代价高昂且具有挑战性。先前的工作采用了一些方法,例如昂贵的人工标注、存在对齐问题的众包数据集以及通过大型语言模型生成噪声样本。我们介绍了 LongForm-C 数据集,该数据集通过反向指令创建。我们使用反向指令通过大型语言模型为人工编写的语料库示例生成指令。首先,我们从 C4 和维基百科等语料库中选择一组多样化的人工编写的文档;然后,我们通过大型语言模型为这些文档生成指令。这种方法提供了一个更便宜、更干净的指令微调数据集,具有自然输出,适合长文本生成。我们的模型在故事/菜谱生成和长篇问答等任务上,优于没有进行指令微调的 10 倍大的语言模型。此外,LongForm 模型在很大程度上优于先前进行指令微调的模型,例如 FLAN-T5 和 Alpaca,并进一步提高了语言理解能力。我们公开发布了我们的数据和模型:https://github.com/akoksal/LongForm。