摘要
arXiv:2410.20285v4 宣告类型:替换
摘要:在复杂且动态的环境中操作的软件工程师必须不断适应不断变化的要求,从经验中迭代学习,并根据新的见解重新审视他们的方法。然而,当前基于大型语言模型(LLM)的软件代理往往依赖于僵化的流程,在评估自身性能或随时间调整策略方面能力有限。为解决这些挑战,我们提出了SWE-Search,这是一种结合了蒙特卡洛树搜索(MCTS)与自我提升机制的多代理框架,旨在提高软件代理在仓库级软件任务方面的表现。SWE-Search 通过引入一种结合了LLM的混合价值函数扩展了传统的MCTS,该函数用于数值值估计和定性评估。这使得代理能够在基于定量数值评估和追求路径的定性自然语言评估的自我反馈循环中逐步优化他们的策略。该框架包括一个SWE代理进行自适应探索、一个价值代理进行迭代反馈,以及一个区分剂代理,它促进多代理辩论以支持协作决策。在SWE-bench基准上应用我们的方法,相比于没有MCTS的标准开源代理,我们的方法在五个模型中的性能相对提高了23%。我们的分析揭示了性能随搜索深度增加而变化的情况,并确定了有助于软件代理有效自我评估的关键因素。这项工作突显了自我评估驱动的搜索技术在复杂动态软件工程环境中的代理推理和计划增强方面的潜力。