LLM2D

摘要

arXiv:2504.04335v1 类别: cross 摘要: 本研究探讨了大型语言模型输出中的 token 级幻觉检测问题。先前的研究发现，在幻觉发生时，注意力会表现出不规则的模式。受此启发，我们从注意力矩阵中提取了提供互补视角的特征，包括：(a) 每个 token 平均获得的注意力，这有助于识别某些 token 是否过于重要或被忽略，(b) 每个 token 获得的注意力多样性，揭示注意力是否偏向特定子集，以及 (c) 生成过程中 token 关注的 token 多样性，这表明模型是参考狭窄的信息范围还是广泛的信息范围。这些特征被输入到基于 Transformer 的分类器中，进行 token 级分类以识别幻觉片段。实验结果表明，所提出的方法在更长输入上下文（即 data-to-text 和总结任务）的幻觉检测上优于强 baseline 方法。