摘要
arXiv:2410.03727v3 宣告类型: replace-cross
摘要: 在真实世界应用中确保大型语言模型(LLM)和检索增强生成(RAG)系统对上下文的忠实性至关重要,因为错误或缺乏支持的信息可能会损害用户信任。尽管在标准基准测试上取得了进展,但幻觉忠实性——模型生成与提供的上下文不符的响应——仍然是一个重大挑战。在本文中,我们介绍了FaithEval,这是一个新颖且全面的基准,旨在评估LLM在三种不同任务下的忠实性:不可回答的、不一致的和反事实的上下文。这些任务模拟了现实世界中检索机制可能显示不完整、矛盾或伪造信息的挑战。FaithEval总共包含4900个高质量的问题,通过严格的四阶段上下文构建和验证框架进行验证,该框架包括基于LLM的自动评估和人工验证。我们在广泛使用开源和专有模型的广泛研究中发现,即使是最先进的模型也经常难以忠实于给定的上下文,而且更大的模型并不 necessarily表现出更好的忠实性。项目可在以下地址获取:https://github.com/SalesforceAIResearch/FaithEval。