摘要
arXiv:2503.23781v1 宣告类型: 新
摘要:大规模语言模型(LLMs)在自动化工作流的生成和优化方面展现了强大的潜力和 impressive 的性能。然而,现有的方法存在推理能力有限、高计算需求和大量资源要求的局限。为了解决这些问题,我们提出了一种名为 DebFlow 的框架,该框架利用辩论机制来优化工作流,并结合反省以基于先前的经验进行改进。我们在六个基准数据集中评估了我们的方法,包括 HotpotQA、MATH 和 ALFWorld。我们的方法在最新的基线下实现了 3% 的平均性能提升,这表明其在多种问题领域中的有效性。特别是在训练过程中,与最先进的基线下相比,我们的框架减少了 37% 的资源消耗。此外,我们还进行了消融研究。移除辩论组件导致两个基准数据集的性能下降 4%,远远大于移除反省组件时观察到的 2% 的下降。这些发现强烈证明了辩论在提升框架性能中的关键作用,同时也突显了反省在整体优化中的辅助贡献。