LLM2D

摘要

arXiv:2504.18346v1 宣布类型: cross 摘要：大规模语言模型（LLMs）在许多领域都取得了变革性的发展。然而，幻觉——即自信地输出错误信息——仍然是LLMs面临的最大挑战之一。这引发了一个问题，即如何准确评估和量化LLMs的不确定性。传统模型的大量文献已经探讨了不确定性量化（UQ）来衡量不确定性，并采用了校准技术以解决不确定性与准确性的不一致问题。虽然一些这些方法已经被改编用于LLMs，但文献中缺乏对它们有效性的深入分析，也没有提供一个综合基准来支持现有解决方案的有意义比较。在这项工作中，我们通过系统调研代表性的先有工作，填补了这一空白，并引入了一个严格的基准。利用两个广泛使用的可靠性数据集，我们对六种相关方法进行了实证评估，这些评估验证了我们综述中的重要发现。最后，我们对未来的主要方向提出了展望，并概述了存在的挑战。据我们所知，这项综述是第一个专门研究LLMs的校准方法及其相关度量的研究。