摘要
arXiv:2505.00506v1 类型: cross
摘要:随着大规模语言模型(LLMs)在高风险领域中的部署越来越广泛,检测幻觉内容(即没有支持证据的内容)已成为一个关键挑战。现有的幻觉检测基准往往是合成生成的,主要集中于提取型问答,并未能捕捉到涉及多文档上下文和完整句子输出的现实世界场景的复杂性。我们介绍了HalluMix基准,这是一种多样化的、任务无关的数据集,包含了来自不同领域和格式的示例。使用此基准,我们评估了七个幻觉检测系统——包括开源和闭源系统——突出不同类型任务、文档长度和输入表示之间的性能差异。我们的分析指出了短和长上下文之间的显著性能差异,这对实际中的检索增强生成(RAG)实现具有重要影响。Quotient Detections在总体性能上表现最佳,准确率为0.82,F1分为0.84。