LLM2D

摘要

arXiv:2504.01248v1 类型:交叉摘要：车内对话系统带来了改善车内用户体验的潜力。现代对话系统基于大型语言模型（LLMs），这使得它们容易出现幻觉，即不准确、虚构的、因此事实错误的信息。在本文中，我们提出了一种基于LLM的方法论，用于自动对车内对话系统进行事实基准测试。我们利用集成技术及多样的角色实例化了我们的方法论，以提高一致性并减少幻觉。我们使用该方法论对CarExpert进行评价，CarExpert是一个基于检索增强对话的问答系统，针对汽车手册的准确性进行评价。我们为此车内领域创建了一个新颖的数据集，并将我们的方法论与专家评估进行了对比测试。我们的结果表明，将GPT-4与输入输出提示结合起来，实现了超过90%的一致性事实正确性，除了高效的响应时间仅为4.5s。我们的发现表明，基于LLM的测试对于验证对话系统关于其事实正确性是一个可行的方法。