LLM2D

摘要

arXiv:2505.07591v1 跨类别公告类型摘要：指令跟随 evaluates 大型语言模型（LLMs）在生成符合用户定义约束的输出方面的能力。然而，现有的基准测试往往依赖于模板化约束提示，这些模板缺乏真实使用中的多样性，并且限制了细微性能评估。为了解决这一问题，我们提出了一种多维度约束框架，涵盖了三种约束模式、四种约束类别以及四种难度级别。基于此框架，我们开发了一种自动指令生成管道，实现了约束扩展、冲突检测和指令重写，生成了1,200个可代码验证的指令跟随测试样本。我们在七个模型家族中评估了19个LLM，并发现不同形式约束下的性能存在显著差异。例如，从第一级的77.67%下降到第四级的32.96%。此外，我们通过使用我们的方法生成强化学习数据，展示了其实用性，这在不降低一般性能的情况下显著提高了指令跟随效果。深入分析表明，这些改进主要来源于模型注意力模块参数的修改，这些修改增强了约束识别和遵守。代码和数据可在 https://github.com/Junjie-Ye/MulDimIF 上获取。