LLM2D

摘要

arXiv:2502.14445v1 Announce Type: cross 摘要：尽管大型语言模型（LLMs）拥有令人印象深刻的技能，但在甚至基本常识推理任务中常常表现得不可预测，显示出不一致的成功率。这种不可预测性对确保其实现安全部署构成了重大挑战，因为在使用过程中识别并操作一个可靠的“安全区”是至关重要的，以最小化风险。为了解决这一问题，我们提出了PredictaBoard，这是一种新颖的协作基准测试框架，旨在评估评分预测器（称为评估器）的能力，即从现有数据集中预测LLM在特定任务实例（即提示）上可能出现的错误。PredictaBoard通过考虑不同容忍错误率下的拒绝率来评估LLM对评估器的配对。因此，PredictaBoard促进了更优评估器的研究和使LLM更具可预测性，而不仅仅是提高平均性能。我们使用基线评估器和最先进的LLM进行了说明性实验。PredictaBoard强调了在评估性能的同时评估可预测性的重要性，为一种更安全的AI系统铺平了道路，在这种系统中，不仅会最小化错误，还会准确预测并有效缓解错误。我们的基准测试代码可以在https://github.com/Kinds-of-Intelligence-CFI/PredictaBoard找到。