摘要
arXiv:2505.07591v1 跨类别公告类型
摘要:指令跟随 evaluates 大型语言模型(LLMs)在生成符合用户定义约束的输出方面的能力。然而,现有的基准测试往往依赖于模板化约束提示,这些模板缺乏真实使用中的多样性,并且限制了细微性能评估。为了解决这一问题,我们提出了一种多维度约束框架,涵盖了三种约束模式、四种约束类别以及四种难度级别。基于此框架,我们开发了一种自动指令生成管道,实现了约束扩展、冲突检测和指令重写,生成了1,200个可代码验证的指令跟随测试样本。我们在七个模型家族中评估了19个LLM,并发现不同形式约束下的性能存在显著差异。例如,从第一级的77.67%下降到第四级的32.96%。此外,我们通过使用我们的方法生成强化学习数据,展示了其实用性,这在不降低一般性能的情况下显著提高了指令跟随效果。深入分析表明,这些改进主要来源于模型注意力模块参数的修改,这些修改增强了约束识别和遵守。代码和数据可在 https://github.com/Junjie-Ye/MulDimIF 上获取。