LLM2D
PredictaBoard:评估LLM得分可预测性基准
PredictaBoard: Benchmarking LLM Score Predictability
作者: Lorenzo Pacchiardi, Konstantinos Voudouris, Ben Slater, Fernando Mart\'inez-Plumed, Jos\'e Hern\'andez-Orallo, Lexin Zhou, Wout Schellaert
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14445v1

摘要

arXiv:2502.14445v1 Announce Type: cross 摘要:尽管大型语言模型(LLMs)拥有令人印象深刻的技能,但在甚至基本常识推理任务中常常表现得不可预测,显示出不一致的成功率。这种不可预测性对确保其实现安全部署构成了重大挑战,因为在使用过程中识别并操作一个可靠的“安全区”是至关重要的,以最小化风险。为了解决这一问题,我们提出了PredictaBoard,这是一种新颖的协作基准测试框架,旨在评估评分预测器(称为评估器)的能力,即从现有数据集中预测LLM在特定任务实例(即提示)上可能出现的错误。PredictaBoard通过考虑不同容忍错误率下的拒绝率来评估LLM对评估器的配对。因此,PredictaBoard促进了更优评估器的研究和使LLM更具可预测性,而不仅仅是提高平均性能。我们使用基线评估器和最先进的LLM进行了说明性实验。PredictaBoard强调了在评估性能的同时评估可预测性的重要性,为一种更安全的AI系统铺平了道路,在这种系统中,不仅会最小化错误,还会准确预测并有效缓解错误。我们的基准测试代码可以在https://github.com/Kinds-of-Intelligence-CFI/PredictaBoard找到。