摘要
arXiv:2502.00290v2 宣告类型:replace-cross
摘要:近年来,大型语言模型(LLMs)取得了显著的进步,并被广泛应用于各个领域。尽管取得了进展,但LLMs仍然容易产生幻觉,即生成不可靠的响应,尤其是在模型缺乏充分的背景知识时。为了解决这一问题,已经采用了评估不确定性的方法,重点关注作为可靠性的指示符的关键词。然而,基于概率的方法在评估词级可靠性时显示出局限性,因为它们无法保留训练过程中获取的证据强度信息。在本文中,我们介绍了Logits诱导的令牌不确定性(LogU),这是一种新的框架,可以实现实时估计LLMs中的令牌特定不确定性,而无需进行多次采样轮次。通过利用证据建模来实施LogU,我们利用衍生的不确定性度量来引导下游任务。我们的实验结果突显了LogU的巨大效果和潜力,标志着在应对模型幻觉挑战方面取得了重要进展。