LLM2D

摘要

arXiv:2502.14268v1 宣布类型：交叉摘要：大型语言模型（LLMs）需要稳健的置信度估计，特别是在医疗保健和法律等关键领域，不准确的输出可能会导致严重后果。尽管对此类置信度估计已有大量近期研究，当前的评估框架仍然依赖于正确性函数——这些往往是噪声较大的、昂贵的，甚至可能引入系统性偏差的各种启发式方法。这些方法论上的弱点往往会扭曲评估指标，从而影响置信度度量的比较排名。我们引入了MCQA-Eval，这是一种自然语言生成（NLG）中的置信度度量评估框架，通过利用多选题数据集中标准的正确性标签，消除了对外部明确正确性函数的依赖。MCQA-Eval 使得基于内部状态的白盒（例如，对数概率为基础的）和基于一致性的黑盒置信度度量的系统性比较成为可能，提供了一种统一的评估方法论。通过在多个LLM和广泛使用的问答数据集上的大量实验，我们报告称MCQA-Eval 提供了比现有方法更高效且更可靠的置信度估计方法评估方式。