LLM2D
FaithEval:即使“月亮是由棉花糖构成的”,你的语言模型能否忠实于上下文?
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows"
作者: Yifei Ming, Senthil Purushwalkam, Shrey Pandit, Zixuan Ke, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.03727v2

摘要

大型语言模型(LLM)和检索增强生成(RAG)系统在实际应用中确保对上下文的忠实度至关重要,因为不正确或不受支持的信息会损害用户信任。尽管在标准基准测试方面取得了进展,但模型生成与提供的上下文不符的响应——即忠实度幻觉——仍然是一个重大挑战。在这项工作中,我们引入了FaithEval,这是一个新颖且全面的基准,旨在评估LLM在三种不同任务(不可回答的、不一致的和反事实的上下文)中的上下文场景下的忠实度。这些任务模拟了检索机制可能出现不完整、矛盾或虚假信息时的现实世界挑战。FaithEval总共包含4900个高质量问题,通过严格的四阶段上下文构建和验证框架进行验证,该框架同时采用了基于LLM的自动评估和人工验证。我们对各种开源和专有模型的广泛研究表明,即使是最先进的模型也常常难以保持对给定上下文的忠实度,并且更大的模型并不一定表现出更高的忠实度。项目地址:\url{https://github.com/SalesforceAIResearch/FaithEval}。