LLM2D

摘要

arXiv:2502.13622v1 声明类型：交叉摘要：大型语言模型（LLM）输出中的幻觉严重限制了它们在知识密集型任务，如问答中的可靠性。为了解决这一挑战，我们引入了REFIND（Retrieval-augmented Factuality hallucINation Detection，检索增强事实性幻觉检测）框架，该框架通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分，我们提出了上下文敏感度比（CSR，Context Sensitivity Ratio），这是一种新型度量方法，用于量化LLM输出对检索到的证据的敏感性。这种创新的方法使REFIND能够高效且准确地检测幻觉，使其区别于现有的方法。在评估中，REFIND在九种语言下均表现出色，包括低资源环境，并且显著优于基线模型，取得了更高的IOU评分，用于识别幻觉片段。这项工作突显了量化上下文敏感性对于幻觉检测的有效性，从而为多种语言下的更可靠和可信赖的LLM应用铺平了道路。