摘要
arXiv:2504.18114v1 Announce Type: cross
摘要:幻觉是语言模型可靠性和广泛应用的重大障碍,但对其准确测量仍然是一个持续的挑战。虽然已经提出了许多针对特定任务和领域的一系列度量标准来评估忠实性和事实性问题,但这些度量标准的稳健性和泛化性仍然未经检验。在本文中,我们在4个数据集、来自5个家族的37个语言模型以及5种解码方法上大规模实证评估了6组不同的幻觉检测度量标准。我们的广泛研究揭示了当前幻觉评估中令人担忧的差距:这些度量标准经常与人类判断不一致,对问题采取了过于短视的看法,并且在参数扩展时显示出不一致的增益。令人鼓舞的是,基于LLM的评估,特别是使用GPT-4,取得了最好的整体结果,模式搜索型解码方法似乎可以减少幻觉,尤其是在知识导向的环境中。这些发现强调了需要更稳健的度量标准来理解和量化幻觉,并提出更好的策略来缓解这些问题。