LLM2D

摘要

arXiv:2504.13677v1 类型: cross 摘要: 语言模型（LMs）中的不确定性量化（UQ）对于提高其安全性和可靠性至关重要。评估通常使用AUROC等性能指标来评估UQ方法（例如，负序概率）与任务正确性函数（例如，ROUGE-L）的相关性。在本文中，我们展示了广泛使用正确性函数对UQ评估造成了偏差，使其夸大了某些UQ方法的性能。我们评估了7种正确性函数——从基于词缀的和基于嵌入的指标到使用LLM作为裁判的方法——在4个数据集×4个模型×6种UQ方法上的效果。我们的分析表明，这些正确性函数中的长度偏差与UQ方法中的长度偏差相互作用，导致对UQ评估的扭曲。我们识别出使用LLM作为裁判的方法是最少长度偏差的选择之一，因此可能是一种减轻这些偏差的潜在解决方案。