LLM2D

摘要

arXiv:2502.08820v2 公告类型：替换摘要：具有API调用能力的大语言模型（LLMs）构建了有效语言代理（LA），同时也在传统的任务导向对话（TOD）范式上带来了革命性的变化。然而，现有的方法面临一个关键的困境：TOD系统往往仅在有限的目标API集上进行训练，当与新的服务接口时需要新的数据来保持质量，而LA则没有被训练以在多轮对话中保持用户意图。因为有效对话代理需要既具备强大的多轮管理能力，又具备高级的功能调用能力，我们在这三个方面流行的基准上评估了这些技能：MultiWOZ 2.4（TOD）、BFCL V3（LA）和API-Bank（LA）。我们的分析揭示了专门的方法在某一领域表现出色但在另一领域却表现不佳。为了弥合这一鸿沟，我们引入了CoALM（对话代理语言模型），这是一种结合了对话和代理能力的统一方法。我们创建了CoALM-IT，这是一个精心构建的多任务数据集，将多轮ReAct推理与复杂的API使用交织在一起。使用CoALM-IT，我们训练了三个模型CoALM 8B、CoALM 70B和CoALM 405B，它们在三个基准测试上均超过了顶级领域特定模型，包括GPT-4o。这表明了单个模型方法在TOD和LA两个领域都是可行的，并为对话代理设定了新的标准。