LLM2D

摘要

arXiv:2406.13144v5 通知类型: 替换-交叉摘要: 近期大型语言模型（LLMs）的发展显著增强了对话系统的功能，使其适用于各个领域（例如教育）。尽管取得了进展，但这些系统的评估往往忽略了现实对话的复杂性，如实时互动、多方对话和扩展的上下文依赖性。为弥合这一差距，我们引入了DialSim，一个实时对话模拟器。在该模拟器中，对话系统被赋予来自热门电视剧中角色的角色，要求其使用过去的对话信息来回应突发问题，并区分已知信息和未知信息。DialSim的关键功能包括评估系统在合理时间内响应的能力，处理长期多方对话，以及使用LongDialQA，一个新型高质量的问题回答数据集，在随机提问下评估性能。我们使用DialSim的实验揭示了最新对话系统的优缺点，为未来对话式人工智能的进步提供了宝贵见解。DialSim可在https://dialsim.github.io/获取。