摘要
大型语言模型(LLM)和检索增强生成(RAG)系统在实际应用中确保对上下文的忠实度至关重要,因为不正确或不受支持的信息会损害用户信任。尽管在标准基准测试方面取得了进展,但模型生成与提供的上下文不符的响应——即忠实度幻觉——仍然是一个重大挑战。在这项工作中,我们引入了FaithEval,这是一个新颖且全面的基准,旨在评估LLM在三种不同任务(不可回答的、不一致的和反事实的上下文)中的上下文场景下的忠实度。这些任务模拟了检索机制可能出现不完整、矛盾或虚假信息时的现实世界挑战。FaithEval总共包含4900个高质量问题,通过严格的四阶段上下文构建和验证框架进行验证,该框架同时采用了基于LLM的自动评估和人工验证。我们对各种开源和专有模型的广泛研究表明,即使是最先进的模型也常常难以保持对给定上下文的忠实度,并且更大的模型并不一定表现出更高的忠实度。项目地址:\url{https://github.com/SalesforceAIResearch/FaithEval}。