LLM2D

摘要

大型语言模型（LLM）经常会生成幻觉文本。为了检测这种文本，已经开发了几种方法，这些方法通过将文本与概率生成的多个版本进行语义比较来进行检测。然而，一个重大问题是，如果每个生成的文本的故事线发生变化，则生成的文本将无法比较，从而降低检测精度。在本文中，我们提出了一种幻觉检测方法，该方法结合了多项选择填空考试方法来解决这一故事线变化问题。首先，我们的方法通过掩盖原始文本中的多个对象来创建多项选择填空考试。其次，提示 LLM 重复回答此考试。这种方法确保了考试答案的故事线与原始故事线一致。最后，通过对考试答案进行评分，考虑原始文本本身可能存在的“幻觉滚雪球”现象，量化每个原始句子的幻觉程度。实验结果表明，我们的方法不仅优于现有方法，而且在与现有方法的集成中也取得了更清晰的最新性能。