LLM2D

摘要

arXiv:2502.00290v2 宣告类型：replace-cross 摘要：近年来，大型语言模型（LLMs）取得了显著的进步，并被广泛应用于各个领域。尽管取得了进展，但LLMs仍然容易产生幻觉，即生成不可靠的响应，尤其是在模型缺乏充分的背景知识时。为了解决这一问题，已经采用了评估不确定性的方法，重点关注作为可靠性的指示符的关键词。然而，基于概率的方法在评估词级可靠性时显示出局限性，因为它们无法保留训练过程中获取的证据强度信息。在本文中，我们介绍了Logits诱导的令牌不确定性（LogU），这是一种新的框架，可以实现实时估计LLMs中的令牌特定不确定性，而无需进行多次采样轮次。通过利用证据建模来实施LogU，我们利用衍生的不确定性度量来引导下游任务。我们的实验结果突显了LogU的巨大效果和潜力，标志着在应对模型幻觉挑战方面取得了重要进展。