摘要
高质量的指令数据对于对齐大型语言模型 (LLM) 至关重要。尽管一些模型,例如 Llama-3-Instruct,具有开放权重,但其对齐数据仍然是私有的,这阻碍了人工智能的民主化。高昂的人工成本以及有限的、预定义的提示范围,使得现有的开源数据创建方法难以有效地扩展,这可能会限制公共对齐数据集的多样性和质量。是否可以通过直接从对齐的 LLM 中提取数据来大规模合成高质量的指令数据?我们提出了一种名为 Magpie 的自合成方法,用于生成大规模对齐数据。我们的关键观察结果是,对齐的 LLM,如 Llama-3-Instruct,可以在我们仅输入左侧模板到为用户消息保留的位置时生成用户查询,这得益于其自回归性质。我们使用此方法提示 Llama-3-Instruct 并生成 400 万条指令及其对应的响应。我们对提取的数据进行了全面分析,并选择了 30 万个高质量实例。为了比较 Magpie 数据与其他公共指令数据集,我们使用每个数据集微调 Llama-3-8B-Base,并评估微调模型的性能。我们的结果表明,在某些任务中,使用 Magpie 微调的模型与官方 Llama-3-8B-Instruct 的性能相当,尽管后者通过监督微调 (SFT) 和随后的反馈学习增强了 1000 万个数据点。我们还表明,仅将 Magpie 用于 SFT 可以超过以前用于 SFT 和偏好优化的公共数据集的性能,例如使用 UltraFeedback 的直接偏好优化。这种优势在 AlpacaEval、ArenaHard 和 WildBench 等对齐基准测试中很明显。