LLM2D

摘要

近年来，提示工程策略（如思维链（CoT）和自我发现）的进步，在提高大型语言模型（LLM）的推理能力方面展现出巨大潜力。然而，这些最先进的（SOTA）提示策略依赖于单一或固定的静态种子推理模块，例如“逐步思考”或“分解问题”，旨在模拟人类解决问题的思路。这种限制限制了模型在有效应对各种问题方面的灵活性。在本文中，我们介绍了 Auto-Evolve，这是一个新颖的框架，它使 LLM 能够自我创建动态推理模块和下游行动计划，从而在当前 SOTA 方法的基础上取得显著改进。我们在具有挑战性的 BigBench-Hard (BBH) 数据集上评估了 Auto-Evolve，使用了 Claude 2.0、Claude 3 Sonnet、Mistral Large 和 GPT 4，结果表明它始终优于 SOTA 提示策略。在这些四个模型中，Auto-Evolve 的性能比 CoT 高出 10.4%，平均高出 7%。我们的框架引入了两个创新：a) Auto-Evolve 为每个任务动态生成推理模块，同时与人类推理模式保持一致，从而消除了对预定义模板的需要。b) 我们引入了迭代细化组件，它逐步细化 LLM 的指令指导，并帮助将性能提高平均 2.8%，而单步执行则无法实现。