LLM2D

摘要

arXiv:2502.04350v1 类型: cross 摘要:现有方法无法有效地在文本推理和代码生成之间引导大型语言模型（LLMs），导致符号计算能力未充分利用。我们提出了CodeSteer，一种有效的引导LLM代码/文本生成的方法。我们构建了一个全面的基准SymBench，包含37个可调节复杂度的符号任务，并且还合成了12000个多轮引导/生成轨迹的数据集和5500个引导比较对。我们使用新设计的多轮监督微调（SFT）和直接偏好优化（DPO）对Llama-3-8B模型进行了微调。由此产生的模型CodeSteerLLM，在提出的符号检查和自我答检查器的增强下，有效引导了更大型模型的代码/文本生成。将CodeSteer应用到GPT-4o上，其平均性能得分从53.3提高到86.4，甚至在所有37个任务（28个已见过的任务，9个未见过的任务）中超越了目前最好的LLM OpenAI o1（82.7）、o1-preview（74.8）和DeepSeek R1（76.8）。CodeSteer针对GPT-4o的训练展示了优越的泛化能力，在Claude、Mistral和GPT-3.5上分别提供了平均41.8的性能提升。CodeSteer引导的LLMs充分利用了符号计算，能够在高度复杂的任务中保持强大的性能。模型、数据集和代码可在https://github.com/yongchao98/CodeSteer-v1.0获得。