LLM2D
CXMArena:统一数据集,用于在实际客户关系管理场景中评估性能
CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios
作者: Raghav Garg, Kapil Sharma, Karan Gupta
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09436v1

摘要

arXiv:2505.09436v1 宣告类型: cross 摘要:大型语言模型(LLMs)在客户体验管理(CXM)中,尤其是在联络中心运营方面,拥有巨大的潜力。然而,在复杂运营环境中的实际应用评估受到数据稀缺性(由于隐私问题)和现有基准限制的阻碍。现有基准通常缺乏现实性,未能包含深入的知识库(KB)集成、现实世界的噪音或超越对话流畅性的关键运营任务。为了弥合这一差距,我们引入了CXMArena,这是一个面向运营CXM场景中评估AI的新颖且大规模合成基准数据集。鉴于联络中心特征的多样性,我们开发了一种可扩展的以LLM为基础的流水线,模拟品牌的CXM实体,这些实体构成了我们数据集的基础,例如包含产品规格、问题分类和联络中心对话的知识文章。这些实体通过受控的噪声注入(参考领域专家意见)和严格的自动验证,紧密地体现了现实世界的数据分布。在此基础上,我们发布了CXMArena,提供专门针对五项重要运营任务的基准测试:知识库优化、意图预测、代理质量合规、文章搜索和集成工具的多轮响应生成。我们的基线实验强调了基准测试的难度:即使是最先进的嵌入和生成模型,在文章搜索上的准确率也只有68%,而标准嵌入方法在知识库优化上的F1分数只有0.3,凸显了当前模型面临的重大挑战,这需要复杂的流水线和解决方案,而不仅仅是传统的技术。