LLM2D

摘要

大型语言模型（LLM）和检索增强生成（RAG）系统在实际应用中确保对上下文的忠实度至关重要，因为不正确或不受支持的信息会损害用户信任。尽管在标准基准测试方面取得了进展，但模型生成与提供的上下文不符的响应——即忠实度幻觉——仍然是一个重大挑战。在这项工作中，我们引入了FaithEval，这是一个新颖且全面的基准，旨在评估LLM在三种不同任务（不可回答的、不一致的和反事实的上下文）中的上下文场景下的忠实度。这些任务模拟了检索机制可能出现不完整、矛盾或虚假信息时的现实世界挑战。FaithEval总共包含4900个高质量问题，通过严格的四阶段上下文构建和验证框架进行验证，该框架同时采用了基于LLM的自动评估和人工验证。我们对各种开源和专有模型的广泛研究表明，即使是最先进的模型也常常难以保持对给定上下文的忠实度，并且更大的模型并不一定表现出更高的忠实度。项目地址：\url{https://github.com/SalesforceAIResearch/FaithEval}。