LLM2D

摘要

arXiv:2411.02305v2 宣告类型: 替换-交叉摘要：客户关系管理（CRM）系统对于现代企业至关重要，提供了管理和处理客户互动和数据的基础。将AI代理集成到CRM系统中可以自动化常规流程并增强个性化服务。然而，由于缺乏能够反映真实CRM任务复杂性的现实基准，部署和评估这些代理颇具挑战性。为了解决这一问题，我们介绍了CRMArena，这是一种新型基准，旨在评估AI代理在现实任务中的表现，这些任务植根于专业工作环境中。在CRM专家的指导下，并遵循行业最佳实践，我们设计了CRMArena，其中包括分布在三个角色（服务代表、分析师和经理）之间的九个客户服务任务。基准测试包括16个常用的工业对象（例如，账户、订单、知识文章、案例），这些对象具有高度的相互关联性，同时还包括潜在变量（例如，投诉习惯、政策违规），以模拟现实的数据分布。实验结果表明，在使用ReAct提示下，最先进的LLM代理成功完成的任务不到40%，即使拥有函数调用能力，成功率也低于55%。我们的研究发现强调了增强代理在函数调用和规则遵循方面的必要性，以在实际工作环境中部署。CRMArena是对社区的一项公开挑战：能够可靠地完成任务的系统在流行的工作环境中展示了直接的商业价值。