LLM2D

摘要

arXiv:2502.04153v1 宣告类型: cross 摘要：指令遵循使得现代大规模语言模型（LLMs）成为了有用的助手。然而，在复杂指令方面驯服LLMs的关键仍然神秘莫测，因为开源社区训练的模型与领先公司训练的模型之间存在巨大差距。为了弥合这一差距，我们提出了一种简单且可扩展的方法UltraIF，以使用开源数据构建能够遵循复杂指令的LLMs。UltraIF首先将现实世界用户提示分解为更简单的查询、约束以及相应评价问题。然后，我们训练了一个UltraComposer来组合与约束相关的提示和评价问题。这种提示组合器使我们能够合成复杂的指令，并利用评价问题来筛选响应。在我们的实验中，我们首次成功地将LaLLaMa-3.1-8B-Base对齐到其指令版本，在没有使用任何基准信息的情况下，在5个指令遵循基准上达到了与其指令版本相当的表现，仅使用8B模型作为响应生成器和评估器。对齐后的模型也在其他基准上取得了竞争力的表现。此外，我们还展示了UltraIF可以通过自我对齐进一步提高LaLLaMa-3.1-8B-Instruct的表现，这激励了该方法在更广泛用例中的应用。我们的代码将在https://github.com/kkk-an/UltraIF上提供。