LLM2D

摘要

arXiv:2502.13622v2 种植类型: 替换-交叉摘要：大型语言模型（LLM）输出中的幻觉严重限制了其在知识密集型任务（如问答）中的可靠性。为了解决这一挑战，我们引入了REFIND（检索增强事实幻觉检测）框架，该框架通过直接利用检索到的文档来检测LLM输出中的幻觉片段。作为REFIND的一部分，我们提出了上下文灵敏度比（CSR，Context Sensitivity Ratio），这是一种新的度量标准，用于量化LLM输出对检索到的证据的敏感性。这一创新方法使REFIND能够高效且准确地检测幻觉，使其区别于现有方法。在评估中，REFIND在九种语言中表现出了稳健性，包括低资源设置，并显著优于基线模型，实现了更高的识别幻觉片段的IoU分数。本项工作突显了量化上下文灵敏度对于幻觉检测的有效性，从而为不同语言的更可靠和可信赖的LLM应用铺平了道路。我们的代码可从https://github.com/oneonlee/REFIND 获取。