LLM2D
StableToolBench-MirrorAPI: 将工具环境建模为7,000+真实世界API的镜像
StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs
作者: Zhicheng Guo, Sijie Cheng, Yuchen Niu, Hao Wang, Sicheng Zhou, Wenbing Huang, Yang Liu
发布日期: 3/27/2025
arXiv ID: oai:arXiv.org:2503.20527v1

摘要

arXiv:2503.20527v1 类型: cross 摘要:大规模语言模型(LLMs)的迅速发展激发了对工具学习的兴趣,即通过在LLMs中添加外部工具来处理复杂任务。然而,现有的工具环境在平衡稳定性和可扩展性以及真实性方面面临着挑战,特别是在基准测试方面。为了解决这一问题,我们提出了一种名为MirrorAPI的新型框架,该框架训练专门的LLMs以准确模拟真实API的响应,有效地充当“镜子”,反映工具环境的真实情况。通过使用来自7,000多个API的请求-响应数据集,并采用监督微调和链式推理方法来提高模拟精度。MirrorAPI在MirrorAPI-Bench上的表现和与StableToolBench的集成均证明其在准确性和稳定性方面优于现有的最先进的方法。