LLM2D
大规模语言模型中不确定性测量与缓解方法的比较:一项系统回顾
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review
作者: Toghrul Abbasli, Kentaroh Toyoda, Yuan Wang, Leon Witt, Muhammad Asif Ali, Yukai Miao, Dan Li, Qingsong Wei
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18346v1

摘要

arXiv:2504.18346v1 宣布类型: cross 摘要:大规模语言模型(LLMs)在许多领域都取得了变革性的发展。然而,幻觉——即自信地输出错误信息——仍然是LLMs面临的最大挑战之一。这引发了一个问题,即如何准确评估和量化LLMs的不确定性。传统模型的大量文献已经探讨了不确定性量化(UQ)来衡量不确定性,并采用了校准技术以解决不确定性与准确性的不一致问题。虽然一些这些方法已经被改编用于LLMs,但文献中缺乏对它们有效性的深入分析,也没有提供一个综合基准来支持现有解决方案的有意义比较。在这项工作中,我们通过系统调研代表性的先有工作,填补了这一空白,并引入了一个严格的基准。利用两个广泛使用的可靠性数据集,我们对六种相关方法进行了实证评估,这些评估验证了我们综述中的重要发现。最后,我们对未来的主要方向提出了展望,并概述了存在的挑战。据我们所知,这项综述是第一个专门研究LLMs的校准方法及其相关度量的研究。