LLM2D
DialSim:多轮对话系统对话理解的实时仿真评测工具
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversation Systems
作者: Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, Edward Choi
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2406.13144v5

摘要

arXiv:2406.13144v5 通知类型: 替换-交叉 摘要: 近期大型语言模型(LLMs)的发展显著增强了对话系统的功能,使其适用于各个领域(例如教育)。尽管取得了进展,但这些系统的评估往往忽略了现实对话的复杂性,如实时互动、多方对话和扩展的上下文依赖性。为弥合这一差距,我们引入了DialSim,一个实时对话模拟器。在该模拟器中,对话系统被赋予来自热门电视剧中角色的角色,要求其使用过去的对话信息来回应突发问题,并区分已知信息和未知信息。DialSim的关键功能包括评估系统在合理时间内响应的能力,处理长期多方对话,以及使用LongDialQA,一个新型高质量的问题回答数据集,在随机提问下评估性能。我们使用DialSim的实验揭示了最新对话系统的优缺点,为未来对话式人工智能的进步提供了宝贵见解。DialSim可在https://dialsim.github.io/获取。