LLM2D
单个模型能够掌握多轮对话和工具使用吗?CoALM:一个统一的对话代理语言模型
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model
作者: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-T\"ur, Gokhan Tur
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.08820v3

摘要

arXiv:2502.08820v3 公告类型:替换 摘要:具有API调用能力的大语言模型(LLMs)构建了有效语言代理(LA),同时也在传统任务导向对话(TOD)范式上带来了革命性变化。然而,目前的方法面临着一个关键困境:TOD系统通常仅在有限的目标API集上进行训练,当与新的服务接口时需要新数据来保持其质量,而在多轮对话中保持用户意图方面,LA并没有得到训练。由于有效的对话代理既需要稳健的多轮管理能力,也需要高级的功能调用能力,我们在三个流行的基准测试上评估了这些技能,即MultiWOZ 2.4(TOD)、BFCL V3(LA)和API-Bank(LA),分析表明,在一个领域表现出色的方法往往在另一个领域表现欠佳。为了弥合这一差距,我们引入了CoALM(Conversational Agentic Language Model),一种结合了对话和代理能力的统一方法。我们构建了CoALM-IT,这是一个精心设计的多任务数据集,将多轮ReAct推理和复杂API使用交织在一起。使用CoALM-IT,我们训练了三个模型CoALM 8B、CoALM 70B和CoALM 405B,这些模型在所有的三个基准测试上都超过了顶级的领域特定模型,包括GPT-4o。这表明,一个单一模型方法适用于TOD和LA,为对话代理设定了新的标准。