摘要
arXiv:2502.11541v1 类型: cross
摘要:复杂的指令跟随并结合详细的约束对于大型语言模型(LLMs)至关重要。尽管现有的方法已经构建了用于复杂指令对齐的数据,但它们都依赖于更先进的模型,特别是GPT-4,这限制了它们的应用。在本文中,我们提出了一种多粒度自我对比训练(MuSC)框架,以在不依赖更强模型的情况下提高复杂的指令对齐。我们的方法在粗粒度和细粒度上都进行了实施。在粗粒度上,我们基于指令分解和重组构建了具有约束感知偏好的数据。在细粒度上,我们进行了具有动态令牌级别监督的令牌感知偏好的优化。我们的方法在开源模型上进行了评估,并且实验结果表明,我们的方法在复杂和通用指令跟随基准上取得了显著的改进,超越了之前的自我对齐方法。