LLM2D
MCQA-Eval:基于 gold-standard 正确性标签的 NLG 有效性评估
MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels
作者: Xiaoou Liu, Zhen Lin, Longchao Da, Chacha Chen, Shubhendu Trivedi, Hua Wei
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14268v1

摘要

arXiv:2502.14268v1 宣布类型:交叉 摘要:大型语言模型(LLMs)需要稳健的置信度估计,特别是在医疗保健和法律等关键领域,不准确的输出可能会导致严重后果。尽管对此类置信度估计已有大量近期研究,当前的评估框架仍然依赖于正确性函数——这些往往是噪声较大的、昂贵的,甚至可能引入系统性偏差的各种启发式方法。这些方法论上的弱点往往会扭曲评估指标,从而影响置信度度量的比较排名。我们引入了MCQA-Eval,这是一种自然语言生成(NLG)中的置信度度量评估框架,通过利用多选题数据集中标准的正确性标签,消除了对外部明确正确性函数的依赖。MCQA-Eval 使得基于内部状态的白盒(例如,对数概率为基础的)和基于一致性的黑盒置信度度量的系统性比较成为可能,提供了一种统一的评估方法论。通过在多个LLM和广泛使用的问答数据集上的大量实验,我们报告称MCQA-Eval 提供了比现有方法更高效且更可靠的置信度估计方法评估方式。