LLM2D
MuSC:多粒度自对比训练改进复杂指令跟随
MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training
作者: Hui Huang, Jiaheng Liu, Yancheng He, Shilong Li, Bing Xu, Conghui Zhu, Muyun Yang, Tiejun Zhao
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11541v1

摘要

arXiv:2502.11541v1 类型: cross 摘要:复杂的指令跟随并结合详细的约束对于大型语言模型(LLMs)至关重要。尽管现有的方法已经构建了用于复杂指令对齐的数据,但它们都依赖于更先进的模型,特别是GPT-4,这限制了它们的应用。在本文中,我们提出了一种多粒度自我对比训练(MuSC)框架,以在不依赖更强模型的情况下提高复杂的指令对齐。我们的方法在粗粒度和细粒度上都进行了实施。在粗粒度上,我们基于指令分解和重组构建了具有约束感知偏好的数据。在细粒度上,我们进行了具有动态令牌级别监督的令牌感知偏好的优化。我们的方法在开源模型上进行了评估,并且实验结果表明,我们的方法在复杂和通用指令跟随基准上取得了显著的改进,超越了之前的自我对齐方法。