LLM2D
FamilyTool: 多跳个性化工具使用基准
FamilyTool: A Multi-hop Personalized Tool Use Benchmark
作者: Yuxin Wang, Yiran Guo, Yining Zheng, Zhangyue Yin, Shuo Chen, Jie Yang, Jiajun Chen, Xuanjing Huang, Xipeng Qiu
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06766v1

摘要

arXiv:2504.06766v1 工具学习类型: 新 摘要: 将工具学习与大型语言模型 (LLM) 相结合,通过利用外部工具扩展了它们处理复杂任务的能力。然而,现有的工具学习基准未能充分解决关键的现实个性化场景,尤其是那些需要多跳推理和适应动态环境中归纳知识的场景。为了弥合这一差距,我们引入了 FamilyTool,一个基于家庭知识图谱 (KG) 的新型基准,模拟个性化、多跳工具使用场景。FamilyTool 挑战 LLM 通过跨越 1 到 3 跳关系的查询(例如,推断家庭联系和偏好),并在一个归纳 KG 设置中引入模型必须在不重新训练的情况下适应未见过的用户偏好和关系,这是先前方法中的一个常见限制,限制了泛化能力。我们还提出了 KGETool:一个简单的 KG 增强评估管道,系统评估 LLM 在这些设置下的工具使用能力。实验结果显示最先进的 LLM 在多跳复杂性增加时性能显著下降,在归纳场景下泛化缺陷尤为严重。这些发现突显了当前 LLM 在处理个性化、不断变化的现实场景方面的限制,并强调了在工具学习框架方面取得进步的迫切需求。FamilyTool 作为评估和推进 LLM 代理在复杂、动态环境中推理、适应性和可扩展性的关键资源。代码和数据集可在 Github 上获取。