摘要
arXiv:2504.04335v1 类别: cross
摘要: 本研究探讨了大型语言模型输出中的 token 级幻觉检测问题。先前的研究发现,在幻觉发生时,注意力会表现出不规则的模式。受此启发,我们从注意力矩阵中提取了提供互补视角的特征,包括:(a) 每个 token 平均获得的注意力,这有助于识别某些 token 是否过于重要或被忽略,(b) 每个 token 获得的注意力多样性,揭示注意力是否偏向特定子集,以及 (c) 生成过程中 token 关注的 token 多样性,这表明模型是参考狭窄的信息范围还是广泛的信息范围。这些特征被输入到基于 Transformer 的分类器中,进行 token 级分类以识别幻觉片段。实验结果表明,所提出的方法在更长输入上下文(即 data-to-text 和总结任务)的幻觉检测上优于强 baseline 方法。