LLM2D

摘要

工具学习使大型语言模型 (LLM) 能够与外部工具和 API 交互，极大地扩展了 LLM 的应用范围。然而，由于外部环境的动态性，这些工具和 API 可能会随着时间的推移而过时，阻止 LLM 正确调用工具。现有的研究主要集中在静态环境，忽视了这个问题，限制了 LLM 在现实世界应用中的适应性。本文提出了一种名为 ToolEVO 的新框架，旨在增强 LLM 对工具变化的适应性和反思能力。通过利用蒙特卡洛树搜索，ToolEVO 促进了 LLM 在动态环境中的主动探索和交互，允许根据环境反馈自主地自我反思和自我更新工具使用。此外，我们还引入了 ToolQA-D，这是一个专门为评估工具变化影响而设计的基准。大量实验表明了我们方法的有效性和稳定性，突出了适应工具变化对于有效工具学习的重要性。