LLM2D

摘要

arXiv:2505.09436v1 宣告类型: cross 摘要：大型语言模型（LLMs）在客户体验管理（CXM）中，尤其是在联络中心运营方面，拥有巨大的潜力。然而，在复杂运营环境中的实际应用评估受到数据稀缺性（由于隐私问题）和现有基准限制的阻碍。现有基准通常缺乏现实性，未能包含深入的知识库（KB）集成、现实世界的噪音或超越对话流畅性的关键运营任务。为了弥合这一差距，我们引入了CXMArena，这是一个面向运营CXM场景中评估AI的新颖且大规模合成基准数据集。鉴于联络中心特征的多样性，我们开发了一种可扩展的以LLM为基础的流水线，模拟品牌的CXM实体，这些实体构成了我们数据集的基础，例如包含产品规格、问题分类和联络中心对话的知识文章。这些实体通过受控的噪声注入（参考领域专家意见）和严格的自动验证，紧密地体现了现实世界的数据分布。在此基础上，我们发布了CXMArena，提供专门针对五项重要运营任务的基准测试：知识库优化、意图预测、代理质量合规、文章搜索和集成工具的多轮响应生成。我们的基线实验强调了基准测试的难度：即使是最先进的嵌入和生成模型，在文章搜索上的准确率也只有68%，而标准嵌入方法在知识库优化上的F1分数只有0.3，凸显了当前模型面临的重大挑战，这需要复杂的流水线和解决方案，而不仅仅是传统的技术。