LLM2D

摘要

arXiv:2504.07069v1 Announce Type: cross 摘要：本文介绍了一个全面的系统，用于在企业环境中检测大型语言模型（LLM）输出中的幻觉。我们提出了一种针对企业应用中幻觉的新型分类法，将其分为基于上下文、常识、企业特定和无关紧要的陈述。我们的幻觉检测模型HDM-2根据上下文和一般公认的事实（常识）验证LLM的响应。它提供幻觉评分和词级注释，使问题内容的精确识别成为可能。为了在基于上下文和常识的幻觉上评估它，我们引入了一个新的数据集HDMBench。实验结果表明，HDM-2在RagTruth、TruthfulQA和HDMBench数据集中优于现有方法。本工作针对企业部署的具体挑战，包括计算效率、领域专业化和细粒度错误识别。我们的评估数据集、模型权重和推理代码是公开可用的。