LLM2D

摘要

arXiv:2502.11435v1 宣告类型: 新摘要: 当前的大语言模型（LLM）代理展示了强大的推理和工具使用能力，但往往缺乏自我意识，难以有效平衡这些方法。这种不平衡导致了工具过度使用，模型在可以使用参数化知识解决的任务上无谓地依赖外部工具，增加了计算开销。受到人类元认知的启发，我们引入了SMART（战略模型感知推理与工具）范式，旨在增强代理的自我意识以优化任务处理并减少工具过度使用。为了支持这种范式，我们引入了SMART-ER数据集，该数据集跨越了三个领域，推理过程在参数化知识和工具依赖步骤之间交替，每一步都通过解释何时需要工具来丰富。通过监督训练，我们开发了SMARTAgent模型系列，能够动态平衡参数化知识和工具使用。评估结果显示，SMARTAgent在减少工具使用24%的同时还提高了37%以上的性能，使得7B规模的模型能够与70B规模的和GPT-4o版本保持同等性能。此外，SMARTAgent还能够泛化到如GSM8K和MINTQA之类的分布外测试数据上，仅通过五分之一的工具调用就能保持准确率。这些结果显示了战略工具使用在增强推理能力、减少过度使用和缩小模型规模与性能之间差距方面的潜力，推动了智能且资源效率高代理设计的进步。