摘要
arXiv:2406.13144v5 通知类型: 替换-交叉
摘要: 近期大型语言模型(LLMs)的发展显著增强了对话系统的功能,使其适用于各个领域(例如教育)。尽管取得了进展,但这些系统的评估往往忽略了现实对话的复杂性,如实时互动、多方对话和扩展的上下文依赖性。为弥合这一差距,我们引入了DialSim,一个实时对话模拟器。在该模拟器中,对话系统被赋予来自热门电视剧中角色的角色,要求其使用过去的对话信息来回应突发问题,并区分已知信息和未知信息。DialSim的关键功能包括评估系统在合理时间内响应的能力,处理长期多方对话,以及使用LongDialQA,一个新型高质量的问题回答数据集,在随机提问下评估性能。我们使用DialSim的实验揭示了最新对话系统的优缺点,为未来对话式人工智能的进步提供了宝贵见解。DialSim可在https://dialsim.github.io/获取。