LLM2D
HalluShift:衡量通往幻觉检测过程中分布偏移的变化
HalluShift: Measuring Distribution Shifts towards Hallucination Detection in LLMs
作者: Sharanya Dasgupta, Sujoy Nath, Arkaprabha Basu, Pourya Shamsolmoali, Swagatam Das
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09482v1

摘要

arXiv:2504.09482v1 异常类型: 交叉 摘要: 大型语言模型(LLMs)近年来因其在众多领域中生成创新响应的能力而引起了广泛的关注。然而,LLMs 经常受到内在幻觉的局限,即使生成结构良好且连贯的响应,也会产生错误的信息。在本文中,我们假设幻觉来自于 LL defense 的内部动态。我们的观察表明,在响应生成过程中,LLMs 倾向于在响应的细微部分偏离事实的准确性,最终转向 misinformation。这一现象类似于人类认知,人们在保持逻辑连贯的同时可能会产生幻觉,将其不确定性的元素嵌入其言语的微小部分。为了进一步研究这一点,我们引入了一种创新的方法 HalluShift,旨在分析 LL defense 生成的响应在内部状态空间和令牌概率分布的变化。我们的方法在各种基准数据集上优于现有基线。我们的代码库可在 https://github.com/sharanya-dasgupta001/hallushift 上获取。