摘要
arXiv:2504.13677v1 类型: cross
摘要: 语言模型(LMs)中的不确定性量化(UQ)对于提高其安全性和可靠性至关重要。评估通常使用AUROC等性能指标来评估UQ方法(例如,负序概率)与任务正确性函数(例如,ROUGE-L)的相关性。在本文中,我们展示了广泛使用正确性函数对UQ评估造成了偏差,使其夸大了某些UQ方法的性能。我们评估了7种正确性函数——从基于词缀的和基于嵌入的指标到使用LLM作为裁判的方法——在4个数据集×4个模型×6种UQ方法上的效果。我们的分析表明,这些正确性函数中的长度偏差与UQ方法中的长度偏差相互作用,导致对UQ评估的扭曲。我们识别出使用LLM作为裁判的方法是最少长度偏差的选择之一,因此可能是一种减轻这些偏差的潜在解决方案。