LLM2D

摘要

arXiv:2503.23781v1 宣告类型: 新摘要：大规模语言模型（LLMs）在自动化工作流的生成和优化方面展现了强大的潜力和 impressive 的性能。然而，现有的方法存在推理能力有限、高计算需求和大量资源要求的局限。为了解决这些问题，我们提出了一种名为 DebFlow 的框架，该框架利用辩论机制来优化工作流，并结合反省以基于先前的经验进行改进。我们在六个基准数据集中评估了我们的方法，包括 HotpotQA、MATH 和 ALFWorld。我们的方法在最新的基线下实现了 3% 的平均性能提升，这表明其在多种问题领域中的有效性。特别是在训练过程中，与最先进的基线下相比，我们的框架减少了 37% 的资源消耗。此外，我们还进行了消融研究。移除辩论组件导致两个基准数据集的性能下降 4%，远远大于移除反省组件时观察到的 2% 的下降。这些发现强烈证明了辩论在提升框架性能中的关键作用，同时也突显了反省在整体优化中的辅助贡献。