LLM2D
使用大型语言模型自动进行车载对话系统的事实基准测试
Automated Factual Benchmarking for In-Car Conversational Systems using Large Language Models
作者: Rafael Giebisch, Ken E. Friedl, Lev Sorokin, Andrea Stocco
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01248v1

摘要

arXiv:2504.01248v1 类型:交叉 摘要:车内对话系统带来了改善车内用户体验的潜力。现代对话系统基于大型语言模型(LLMs),这使得它们容易出现幻觉,即不准确、虚构的、因此事实错误的信息。在本文中,我们提出了一种基于LLM的方法论,用于自动对车内对话系统进行事实基准测试。我们利用集成技术及多样的角色实例化了我们的方法论,以提高一致性并减少幻觉。我们使用该方法论对CarExpert进行评价,CarExpert是一个基于检索增强对话的问答系统,针对汽车手册的准确性进行评价。我们为此车内领域创建了一个新颖的数据集,并将我们的方法论与专家评估进行了对比测试。我们的结果表明,将GPT-4与输入输出提示结合起来,实现了超过90%的一致性事实正确性,除了高效的响应时间仅为4.5s。我们的发现表明,基于LLM的测试对于验证对话系统关于其事实正确性是一个可行的方法。