摘要
arXiv:2502.13622v1 声明类型:交叉
摘要:大型语言模型(LLM)输出中的幻觉严重限制了它们在知识密集型任务,如问答中的可靠性。为了解决这一挑战,我们引入了REFIND(Retrieval-augmented Factuality hallucINation Detection,检索增强事实性幻觉检测)框架,该框架通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分,我们提出了上下文敏感度比(CSR,Context Sensitivity Ratio),这是一种新型度量方法,用于量化LLM输出对检索到的证据的敏感性。这种创新的方法使REFIND能够高效且准确地检测幻觉,使其区别于现有的方法。在评估中,REFIND在九种语言下均表现出色,包括低资源环境,并且显著优于基线模型,取得了更高的IOU评分,用于识别幻觉片段。这项工作突显了量化上下文敏感性对于幻觉检测的有效性,从而为多种语言下的更可靠和可信赖的LLM应用铺平了道路。