LLM2D
ClashEval:量化大语言模型内部先验与外部证据之间的拉锯效应
ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence
作者: Kevin Wu, Eric Wu, James Zou
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2404.10198v3

摘要

arXiv:2404.10198v3 更新类型: 替换交叉 摘要:检索增强生成(RAG)经常被用来减轻语言模型(LLMs)幻觉,并提供最新的知识。然而,由于文档检索是一项不精确的任务,有时会导致错误甚至有害的内容出现在上下文中,这引发了这样的问题:LLMs如何处理检索到的信息:如果提供的内容是错误的,模型是否会知道忽略它,还是会重复错误?相反,当模型的初始响应是错误的时,它是否会始终知道使用检索到的信息来纠正自己,还是会坚持其先前的错误响应?为了回答这个问题,我们针对六个领域(例如,药物剂量、奥林匹克记录、地理位置)收集了超过1200个问题及其相关答案内容。我们进一步对内容中的答案应用从微妙到明显的精确扰动。我们在该数据集上对六种性能最佳的LLMs(包括GPT-4o)进行了基准测试,并发现LLMs在60%以上的情况下倾向于接受错误的检索内容,优先知识被覆盖。然而,检索内容越不现实(即,与事实的偏离越大),模型越不愿意接受它。此外,模型对其初始响应越不自信(通过测量token概率来衡量),它就越有可能接受检索内容中的信息。我们利用这一发现并展示了简单方法来改进存在矛盾检索内容时的模型准确性。我们的结果强调了一个对LLMs来说困难的任务和基准——即它们正确辨别何时存在正确检索内容但仍然错误的能力以及拒绝错误提供的内容的能力。