LLM2D

摘要

arXiv:2410.03727v3 宣告类型: replace-cross 摘要: 在真实世界应用中确保大型语言模型（LLM）和检索增强生成（RAG）系统对上下文的忠实性至关重要，因为错误或缺乏支持的信息可能会损害用户信任。尽管在标准基准测试上取得了进展，但幻觉忠实性——模型生成与提供的上下文不符的响应——仍然是一个重大挑战。在本文中，我们介绍了FaithEval，这是一个新颖且全面的基准，旨在评估LLM在三种不同任务下的忠实性：不可回答的、不一致的和反事实的上下文。这些任务模拟了现实世界中检索机制可能显示不完整、矛盾或伪造信息的挑战。FaithEval总共包含4900个高质量的问题，通过严格的四阶段上下文构建和验证框架进行验证，该框架包括基于LLM的自动评估和人工验证。我们在广泛使用开源和专有模型的广泛研究中发现，即使是最先进的模型也经常难以忠实于给定的上下文，而且更大的模型并不 necessarily表现出更好的忠实性。项目可在以下地址获取：https://github.com/SalesforceAIResearch/FaithEval。