LLM2D

摘要

大型语言模型 (LLM) 的最新进展显著提升了对话代理的能力，使其适用于各个领域（如教育）。尽管取得了进步，但对代理的评估往往忽略了现实世界对话的复杂性，例如实时交互、多方对话和扩展的上下文依赖关系。为了弥合这一差距，我们引入了 DialSim，一个实时对话模拟器。在这个模拟器中，代理被分配了来自热门电视剧的角色，要求它使用过去的对话信息来回答自发的提问，并区分已知信息和未知信息。DialSim 的关键特征包括评估代理在合理时间限制内做出回应的能力、处理长期多方对话以及在使用多样化和高质量问答数据集的随机提问下测试代理的性能。我们利用该模拟器评估了最新的对话代理并分析了它们的局限性。我们的实验突出了这些代理的优缺点，为对话式人工智能领域的未来改进提供了宝贵的见解。DialSim 可在 https://dialsim.github.io/ 获取。