LLM2D

摘要

arXiv:2502.08663v1 类型:跨领域摘要：幻觉是影响大语言模型（LLMs）的主要问题之一，阻碍了它们在生产系统中的广泛应用。虽然当前研究中用于检测幻觉的方法主要基于启发式方法，但在本文中，我们提出了一个数学上严谨的方法来推理幻觉问题，并利用该方法构建了一个检测幻觉的工具。据我们所知，这是我们首次证明幻觉内容在结构上与正确内容存在差异。为证明这一结果，我们借助嵌入空间中的闵可夫斯基距离。我们的发现表明，在使用不同距离范数和不同关键词、问题或响应数量的情况下，嵌入距离分布具有统计学上的显著差异，且这些差异是无量纲的——它们在使用不同距离范数和不同数量的关键词、问题或响应的情况下也能够定性地保持。我们利用这些结构差异来开发一个检测幻觉响应的工具，在特定的系统参数配置下，其准确率达到66%——与领域内最佳结果相当。综上所述，所建议的方法具有潜力且新颖，可能为该领域的进一步研究铺平道路，尤其是我们在未来工作中标记出的方向。