摘要
大型语言模型 (LLM) 和检索增强生成 (RAG) 系统在现实世界应用中可靠部署的关键在于确保其对上下文的忠实度,因为错误或不支持的信息会损害用户信任。尽管在标准基准测试中取得了进展,但忠实度幻觉——模型生成与提供的上下文不一致的响应——仍然是一个重大挑战。在这项工作中,我们介绍了 FaithEval,这是一个新颖且全面的基准测试,旨在评估 LLM 在三种不同任务中的上下文场景中的忠实度:不可回答、不一致和反事实上下文。这些任务模拟了现实世界中的挑战,其中检索机制可能会出现不完整、矛盾或虚构的信息。FaithEval 总共包含 4.9K 个高质量问题,通过严格的四阶段上下文构建和验证框架进行验证,采用基于 LLM 的自动评估和人工验证。我们对各种开源和专有模型的广泛研究表明,即使是最先进的模型也经常难以保持对给定上下文的忠实度,并且更大的模型不一定表现出更高的忠实度。该项目可在以下地址获取:\url{https://github.com/SalesforceAIResearch/FaithEval}.