LLM2D

摘要

arXiv:2502.11541v1 类型: cross 摘要：复杂的指令跟随并结合详细的约束对于大型语言模型（LLMs）至关重要。尽管现有的方法已经构建了用于复杂指令对齐的数据，但它们都依赖于更先进的模型，特别是GPT-4，这限制了它们的应用。在本文中，我们提出了一种多粒度自我对比训练（MuSC）框架，以在不依赖更强模型的情况下提高复杂的指令对齐。我们的方法在粗粒度和细粒度上都进行了实施。在粗粒度上，我们基于指令分解和重组构建了具有约束感知偏好的数据。在细粒度上，我们进行了具有动态令牌级别监督的令牌感知偏好的优化。我们的方法在开源模型上进行了评估，并且实验结果表明，我们的方法在复杂和通用指令跟随基准上取得了显著的改进，超越了之前的自我对齐方法。