摘要
arXiv:2504.18346v1 宣布类型: cross
摘要:大规模语言模型(LLMs)在许多领域都取得了变革性的发展。然而,幻觉——即自信地输出错误信息——仍然是LLMs面临的最大挑战之一。这引发了一个问题,即如何准确评估和量化LLMs的不确定性。传统模型的大量文献已经探讨了不确定性量化(UQ)来衡量不确定性,并采用了校准技术以解决不确定性与准确性的不一致问题。虽然一些这些方法已经被改编用于LLMs,但文献中缺乏对它们有效性的深入分析,也没有提供一个综合基准来支持现有解决方案的有意义比较。在这项工作中,我们通过系统调研代表性的先有工作,填补了这一空白,并引入了一个严格的基准。利用两个广泛使用的可靠性数据集,我们对六种相关方法进行了实证评估,这些评估验证了我们综述中的重要发现。最后,我们对未来的主要方向提出了展望,并概述了存在的挑战。据我们所知,这项综述是第一个专门研究LLMs的校准方法及其相关度量的研究。