LLM2D
UltraIF: 从野生环境推进指令跟随
UltraIF: Advancing Instruction Following from the Wild
作者: Kaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.04153v1

摘要

arXiv:2502.04153v1 宣告类型: cross 摘要:指令遵循使得现代大规模语言模型(LLMs)成为了有用的助手。然而,在复杂指令方面驯服LLMs的关键仍然神秘莫测,因为开源社区训练的模型与领先公司训练的模型之间存在巨大差距。为了弥合这一差距,我们提出了一种简单且可扩展的方法UltraIF,以使用开源数据构建能够遵循复杂指令的LLMs。UltraIF首先将现实世界用户提示分解为更简单的查询、约束以及相应评价问题。然后,我们训练了一个UltraComposer来组合与约束相关的提示和评价问题。这种提示组合器使我们能够合成复杂的指令,并利用评价问题来筛选响应。在我们的实验中,我们首次成功地将LaLLaMa-3.1-8B-Base对齐到其指令版本,在没有使用任何基准信息的情况下,在5个指令遵循基准上达到了与其指令版本相当的表现,仅使用8B模型作为响应生成器和评估器。对齐后的模型也在其他基准上取得了竞争力的表现。此外,我们还展示了UltraIF可以通过自我对齐进一步提高LaLLaMa-3.1-8B-Instruct的表现,这激励了该方法在更广泛用例中的应用。我们的代码将在https://github.com/kkk-an/UltraIF上提供。