摘要
arXiv:2502.04153v1 宣告类型: cross
摘要:指令遵循使得现代大规模语言模型(LLMs)成为了有用的助手。然而,在复杂指令方面驯服LLMs的关键仍然神秘莫测,因为开源社区训练的模型与领先公司训练的模型之间存在巨大差距。为了弥合这一差距,我们提出了一种简单且可扩展的方法UltraIF,以使用开源数据构建能够遵循复杂指令的LLMs。UltraIF首先将现实世界用户提示分解为更简单的查询、约束以及相应评价问题。然后,我们训练了一个UltraComposer来组合与约束相关的提示和评价问题。这种提示组合器使我们能够合成复杂的指令,并利用评价问题来筛选响应。在我们的实验中,我们首次成功地将LaLLaMa-3.1-8B-Base对齐到其指令版本,在没有使用任何基准信息的情况下,在5个指令遵循基准上达到了与其指令版本相当的表现,仅使用8B模型作为响应生成器和评估器。对齐后的模型也在其他基准上取得了竞争力的表现。此外,我们还展示了UltraIF可以通过自我对齐进一步提高LaLLaMa-3.1-8B-Instruct的表现,这激励了该方法在更广泛用例中的应用。我们的代码将在https://github.com/kkk-an/UltraIF上提供。