LLM2D

摘要

arXiv:2502.12961v1 Announce Type: 新的摘要：大语言模型（LLMs）展现了令人瞩目的涌现性能力，通过利用外部工具来解决需要专门处理或实时数据的复杂问题，从而改变功能任务的执行方式。虽然现有的研究扩展了LLMs访问各种工具的能力（例如程序解释器、搜索引擎、天气/地图应用程序），但往往忽略了使用这些工具的必要性，导致了工具调用的盲目性。这种天真无邪的方法引发了两个关键问题：（1）由于不必要的工具调用导致的延迟增加，（2）由于与外部工具的不良交互导致的潜在错误。在这篇文章中，我们引入了元认知作为LLMs自我评估其能力的代理，表示模型对其自身局限的认知。基于此，我们提出了MeCo，这是一种针对外部工具使用的自适应决策策略。MeCo通过捕捉表示空间中的高层次认知信号来量化元认知得分，指导何时调用工具。值得注意的是，MeCo 是无需微调的，并且成本低廉。我们的实验表明，MeCo 准确检测了LLMs内部的认知信号，并在多个基础模型和基准测试中显著提高了工具使用决策的质量。