LLM2D
单模型能掌握多轮对话和工具使用吗?CALM:一个统一的对话性代理语言模型
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model
作者: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-T\"ur, Gokhan Tur
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08820v1

摘要

arXiv:2502.08820v1 宣告类型: 新 摘要: 具有API调用能力的大语言模型(LLMs)构建了有效的语言代理(LA),同时也在传统的目标导向对话(TOD)范式上带来了革命。然而,当前的方法面临一个关键的困境:TOD系统通常仅在有限的目标API集合上进行训练,在与新服务进行接口交互时需要新的数据来维持质量,而LA并未被训练以在多轮对话中保持用户意图。由于稳健的多轮管理能力和高级功能调用对于有效的对话代理都是至关重要的,我们在三个流行的基准上评估了这些技能:MultiWOZ 2.4(TOD),BFCL V3(LA)和API-Bank(LA),我们的分析表明特化的方法在其中一个领域表现出色但在另一个领域则表现不佳。为了弥合这一差距,我们引入了CALM(对话代理语言模型),这是一种统一的方法,集成了对话能力和代理能力。我们构建了CALM-IT,这是一个精心设计的多任务数据集,将多轮ReAct推理与复杂的API使用交织在一起。使用CALM-IT,我们训练了CALM 8B、CALM 70B和CALM 405B三种模型,这三种模型在三个基准上均优于顶级的领域特定模型,包括GPT-4o。