摘要
arXiv:2502.10709v1 通知类型: 交叉
摘要: 随着LLM-as-a-Judge作为一种新的评估大型语言模型(LLMs)的范式出现,关于LLM评估者的对齐、偏差和稳定性的担忧已经浮现。尽管已经进行了大量关于对齐和偏差的研究,但很少有研究关注LLM评估者的稳定性。在本文中,我们进行了广泛的实验,涉及两种不同的评估设置中使用的9种广泛使用的LLM评估者,以调查基于模型的LLM评估的不确定性。我们指出,LLM评估者在模型家族和规模的基础上表现出不同的不确定性。通过仔细的比较分析,我们发现,无论是推理期间还是训练后使用特殊的提示策略,都可以在一定程度上缓解评估不确定性。通过利用不确定性来增强LLM在离分布(OOD)数据中的可靠性和检测能力,我们进一步使用一个人类注释的微调集微调了一个具有不确定性感知能力的LLM评估者ConfiLM,并在手工设计的测试集上评估ConfiLM的OOD评估能力,该测试集源自2024年奥运会数据。实验结果表明,在微调阶段引入不确定性作为额外信息可以大大改善模型在OOD场景中的评估性能。代码和数据可以在以下网址获取:https://github.com/hasakiXie123/LLM-Evaluator-Uncertainty。