LLM2D
CodeSteer:通过代码/文本指导的符号增强语言模型
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
作者: Yongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04350v1

摘要

arXiv:2502.04350v1 类型: cross 摘要:现有方法无法有效地在文本推理和代码生成之间引导大型语言模型(LLMs),导致符号计算能力未充分利用。我们提出了CodeSteer,一种有效的引导LLM代码/文本生成的方法。我们构建了一个全面的基准SymBench,包含37个可调节复杂度的符号任务,并且还合成了12000个多轮引导/生成轨迹的数据集和5500个引导比较对。我们使用新设计的多轮监督微调(SFT)和直接偏好优化(DPO)对Llama-3-8B模型进行了微调。由此产生的模型CodeSteerLLM,在提出的符号检查和自我答检查器的增强下,有效引导了更大型模型的代码/文本生成。将CodeSteer应用到GPT-4o上,其平均性能得分从53.3提高到86.4,甚至在所有37个任务(28个已见过的任务,9个未见过的任务)中超越了目前最好的LLM OpenAI o1(82.7)、o1-preview(74.8)和DeepSeek R1(76.8)。CodeSteer针对GPT-4o的训练展示了优越的泛化能力,在Claude、Mistral和GPT-3.5上分别提供了平均41.8的性能提升。CodeSteer引导的LLMs充分利用了符号计算,能够在高度复杂的任务中保持强大的性能。模型、数据集和代码可在https://github.com/yongchao98/CodeSteer-v1.0获得。