LLM2D
增强、解耦和定制:一种 robust 系统2到系统1的代码生成流水线
Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation
作者: Kounianhua Du, Hanjing Wang, Jianxing Liu, Jizheng Chen, Xinyi Dai, Yasheng Wang, Ruiming Tang, Yong Yu, Jun Wang, Weinan Zhang
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.12492v1

摘要

arXiv:2502.12492v1 通知类型: 新 摘要: 大型语言模型(LLMs)在各个领域展示了令人瞩目的能力,特别是在系统1任务方面,然而它们在系统2任务中的问题解决机制的复杂性尚未得到充分探索。最近关于系统2到系统1方法的研究激增,通过推理时的计算探索系统2的推理知识,并将所探索的知识压缩到系统1过程中。在本文中,我们重点关注代码生成,这是一个代表性的系统2任务,并识别出两个主要挑战:(1)复杂的隐藏推理过程和(2)异质数据分布,这使得探索和训练稳健的语言模型求解器变得复杂。为了解决这些问题,我们提出了一种新的BDC框架,利用MC-Agent-Tree算法中的互Boosting和Disentangling异质训练数据以实现可组合的LoRA专家,为每个数据实例获得输入感知的超网络加权的自定义问题求解器,提供有效性、灵活性和稳健性。该框架通过相互验证和提升多个LLMs,并整合到增强的蒙特卡洛树搜索过程中。此外,我们引入了DisenLora算法,该算法将异质数据聚类以微调LLMs为可组合的LoRA专家,通过输入感知的超网络实现自适应地生成定制问题求解器。这项工作为推进LLMs在复杂推理任务中的能力奠定了基础,提供了一种新颖的系统2到系统1解决方案。