摘要
arXiv:2505.04847v1 Announce Type: cross
摘要:幻觉仍然是大语言模型面临的一个持续挑战。RAG(检索增强生成)旨在通过在上下文中生成响应来减少幻觉。然而,即使提供了上下文,大语言模型仍然频繁地引入未经支持的信息或产生矛盾。本文介绍了我们对大语言模型幻觉的测量努力,重点关注摘要任务,评估了各种大语言模型在总结文档时引入幻觉的频率。我们讨论了Vectara现有的大语言模型幻觉排行榜,该排行榜基于Hughes Hallucination Evaluation Model (HHEM)。虽然HHEM和Vectara的幻觉排行榜引起了广泛的研究兴趣,但我们通过对这些排行榜所依赖的方法在现有幻觉数据集上的有效性进行分析,来考察HHEM及其当前幻觉检测方法所面临的挑战。为了解决这些局限性,我们提出了FaithJudge,这是一种由少量人类幻觉注解指导的大语言模型裁判方法,该方法在当前方法上显著提高了自动化大语言模型幻觉评估的效果。我们引入了一个基于FaithJudge改进的幻觉排行榜,与我们现有的幻觉排行榜一起,为RAG中的大语言模型幻觉评估提供了更可靠的基准。