摘要
arXiv:2502.08820v3 公告类型:替换
摘要:具有API调用能力的大语言模型(LLMs)构建了有效语言代理(LA),同时也在传统任务导向对话(TOD)范式上带来了革命性变化。然而,目前的方法面临着一个关键困境:TOD系统通常仅在有限的目标API集上进行训练,当与新的服务接口时需要新数据来保持其质量,而在多轮对话中保持用户意图方面,LA并没有得到训练。由于有效的对话代理既需要稳健的多轮管理能力,也需要高级的功能调用能力,我们在三个流行的基准测试上评估了这些技能,即MultiWOZ 2.4(TOD)、BFCL V3(LA)和API-Bank(LA),分析表明,在一个领域表现出色的方法往往在另一个领域表现欠佳。为了弥合这一差距,我们引入了CoALM(Conversational Agentic Language Model),一种结合了对话和代理能力的统一方法。我们构建了CoALM-IT,这是一个精心设计的多任务数据集,将多轮ReAct推理和复杂API使用交织在一起。使用CoALM-IT,我们训练了三个模型CoALM 8B、CoALM 70B和CoALM 405B,这些模型在所有的三个基准测试上都超过了顶级的领域特定模型,包括GPT-4o。这表明,一个单一模型方法适用于TOD和LA,为对话代理设定了新的标准。