LLM2D
REFIND 在 SemEval-2025 任务 3:在大型语言模型中检索增强的事实幻觉检测
REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models
作者: DongGeon Lee, Hwanjo Yu
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2502.13622v2

摘要

arXiv:2502.13622v2 种植类型: 替换-交叉 摘要:大型语言模型(LLM)输出中的幻觉严重限制了其在知识密集型任务(如问答)中的可靠性。为了解决这一挑战,我们引入了REFIND(检索增强事实幻觉检测)框架,该框架通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分,我们提出了上下文灵敏度比(CSR,Context Sensitivity Ratio),这是一种新的度量标准,用于量化LLM输出对检索到的证据的敏感性。这一创新方法使REFIND能够高效且准确地检测幻觉,使其区别于现有方法。在评估中,REFIND在九种语言中表现出了稳健性,包括低资源设置,并显著优于基线模型,实现了更高的识别幻觉片段的IoU分数。本项工作突显了量化上下文灵敏度对于幻觉检测的有效性,从而为不同语言的更可靠和可信赖的LLM应用铺平了道路。我们的代码可从https://github.com/oneonlee/REFIND 获取。