LLM2D

摘要

arXiv:2502.08820v3 公告类型：替换摘要：具有API调用能力的大语言模型（LLMs）构建了有效语言代理（LA），同时也在传统任务导向对话（TOD）范式上带来了革命性变化。然而，目前的方法面临着一个关键困境：TOD系统通常仅在有限的目标API集上进行训练，当与新的服务接口时需要新数据来保持其质量，而在多轮对话中保持用户意图方面，LA并没有得到训练。由于有效的对话代理既需要稳健的多轮管理能力，也需要高级的功能调用能力，我们在三个流行的基准测试上评估了这些技能，即MultiWOZ 2.4（TOD）、BFCL V3（LA）和API-Bank（LA），分析表明，在一个领域表现出色的方法往往在另一个领域表现欠佳。为了弥合这一差距，我们引入了CoALM（Conversational Agentic Language Model），一种结合了对话和代理能力的统一方法。我们构建了CoALM-IT，这是一个精心设计的多任务数据集，将多轮ReAct推理和复杂API使用交织在一起。使用CoALM-IT，我们训练了三个模型CoALM 8B、CoALM 70B和CoALM 405B，这些模型在所有的三个基准测试上都超过了顶级的领域特定模型，包括GPT-4o。这表明，一个单一模型方法适用于TOD和LA，为对话代理设定了新的标准。