摘要
近年来,提示工程策略(如思维链(CoT)和自我发现)的进步,在提高大型语言模型(LLM)的推理能力方面展现出巨大潜力。然而,这些最先进的(SOTA)提示策略依赖于单一或固定的静态种子推理模块,例如“逐步思考”或“分解问题”,旨在模拟人类解决问题的思路。这种限制限制了模型在有效应对各种问题方面的灵活性。在本文中,我们介绍了 Auto-Evolve,这是一个新颖的框架,它使 LLM 能够自我创建动态推理模块和下游行动计划,从而在当前 SOTA 方法的基础上取得显著改进。我们在具有挑战性的 BigBench-Hard (BBH) 数据集上评估了 Auto-Evolve,使用了 Claude 2.0、Claude 3 Sonnet、Mistral Large 和 GPT 4,结果表明它始终优于 SOTA 提示策略。在这些四个模型中,Auto-Evolve 的性能比 CoT 高出 10.4%,平均高出 7%。我们的框架引入了两个创新:a) Auto-Evolve 为每个任务动态生成推理模块,同时与人类推理模式保持一致,从而消除了对预定义模板的需要。b) 我们引入了迭代细化组件,它逐步细化 LLM 的指令指导,并帮助将性能提高平均 2.8%,而单步执行则无法实现。