摘要
将机器学习 (ML) 整合到客户服务聊天机器人中,增强了它们理解和响应用户查询的能力,最终提高了服务性能。然而,它们在某些用户眼中可能显得过于人工,从而影响客户体验。因此,对每个管道组件的 ML 模型进行细致的评估对于优化性能至关重要,尽管功能上的差异可能会导致不公平的比较。在本文中,我们针对具有管道架构的目标导向型客户服务聊天机器人,提出了一种定制的实验评估方法,重点关注三个关键组件:自然语言理解 (NLU)、对话管理 (DM) 和自然语言生成 (NLG)。我们的方法强调个体评估,以确定最佳的 ML 模型。具体而言,我们专注于优化超参数并评估 NLU (使用 BERT 和 LSTM)、DM (使用 DQN 和 DDQN) 和 NLG (利用 GPT-2 和 DialoGPT) 的候选模型。结果表明,对于 NLU 组件,BERT 在意图检测方面表现出色,而 LSTM 在槽位填充方面更胜一筹。对于 DM 组件,DDQN 模型通过实现更少的回合数、更高的奖励以及更高的成功率,优于 DQN 模型。对于 NLG,大型语言模型 GPT-2 在 BLEU、METEOR 和 ROUGE 指标方面超过了 DialoGPT。这些发现旨在为未来开发和优化客户服务聊天机器人的研究提供基准,为模型性能和最佳超参数提供宝贵的见解。