LLM2D

摘要

arXiv:2504.09482v1 异常类型: 交叉摘要: 大型语言模型（LLMs）近年来因其在众多领域中生成创新响应的能力而引起了广泛的关注。然而，LLMs 经常受到内在幻觉的局限，即使生成结构良好且连贯的响应，也会产生错误的信息。在本文中，我们假设幻觉来自于 LL defense 的内部动态。我们的观察表明，在响应生成过程中，LLMs 倾向于在响应的细微部分偏离事实的准确性，最终转向 misinformation。这一现象类似于人类认知，人们在保持逻辑连贯的同时可能会产生幻觉，将其不确定性的元素嵌入其言语的微小部分。为了进一步研究这一点，我们引入了一种创新的方法 HalluShift，旨在分析 LL defense 生成的响应在内部状态空间和令牌概率分布的变化。我们的方法在各种基准数据集上优于现有基线。我们的代码库可在 https://github.com/sharanya-dasgupta001/hallushift 上获取。