LLM2D

摘要

arXiv:2505.09970v1 公告类型: 新摘要: 大语言模型（LLMs）中的 ReAct（推理+行动）能力已成为现代智能体系统的基石。最近的LLM，如DeepSeek-R1和OpenAI o1/o3，通过生成大量的中间令牌来强调推理，这有助于在生成最终输出令牌之前构建强有力的前提。在本文中，我们介绍了一种新的方法Pre-Act，它通过为给定用户输入创建一个多步骤执行计划和详细的推理来提高智能体的性能。该计划在每个步骤执行后逐步纳入先前的步骤和工具输出，直至最终响应获得前不断自我优化。我们的方法适用于both conversational and non-conversational智能体。为了全面衡量任务导向智能体的表现，我们提出了一种两级评估框架：(1) 轮次级别和(2) 整体流程。我们的轮次级别评估，在五种模型的平均结果中表明，Pre-Act 方式在 Almita 数据集上的行动召回率上比 ReAct 高出 70%。尽管这种方法对大型模型有效，但对实际应用中至关重要、而延迟和成本是关键限制的小型模型来说，它们往往难以完成智能体系统所需的复杂推理任务。为解决这一局限性，我们使用提出的 Pre-Act 方法对相对较小的模型（如 Llama 3.1，8B 和 70B）进行了微调。我们的实验结果显示，微调后的 70B 模型在 Almita（域外）数据集上的行动准确率（轮次级别）提高了 69.5%，整体完成率（整体流程级别）提高了 28%，超过了 GPT-4。