LLM2D

摘要

arXiv:2502.12492v1 通知类型: 新摘要: 大型语言模型（LLMs）在各个领域展示了令人瞩目的能力，特别是在系统1任务方面，然而它们在系统2任务中的问题解决机制的复杂性尚未得到充分探索。最近关于系统2到系统1方法的研究激增，通过推理时的计算探索系统2的推理知识，并将所探索的知识压缩到系统1过程中。在本文中，我们重点关注代码生成，这是一个代表性的系统2任务，并识别出两个主要挑战：（1）复杂的隐藏推理过程和（2）异质数据分布，这使得探索和训练稳健的语言模型求解器变得复杂。为了解决这些问题，我们提出了一种新的BDC框架，利用MC-Agent-Tree算法中的互Boosting和Disentangling异质训练数据以实现可组合的LoRA专家，为每个数据实例获得输入感知的超网络加权的自定义问题求解器，提供有效性、灵活性和稳健性。该框架通过相互验证和提升多个LLMs，并整合到增强的蒙特卡洛树搜索过程中。此外，我们引入了DisenLora算法，该算法将异质数据聚类以微调LLMs为可组合的LoRA专家，通过输入感知的超网络实现自适应地生成定制问题求解器。这项工作为推进LLMs在复杂推理任务中的能力奠定了基础，提供了一种新颖的系统2到系统1解决方案。