LLM2D
HiBayES:AI评估统计的层次贝叶斯建模框架
HiBayES: A Hierarchical Bayesian Modeling Framework for AI Evaluation Statistics
作者: Lennart Luettgau, Harry Coppock, Magda Dubois, Christopher Summerfield, Cozmin Ududec
发布日期: 5/12/2025
arXiv ID: oai:arXiv.org:2505.05602v1

摘要

arXiv:2505.05602v1 公告类型: 新 摘要:随着大型语言模型(LLMs)和其他AI系统的不断发展,从固有的随机输出中稳健地估计其能力,同时系统地量化这些估计中的不确定性变得越来越重要。此外,先进的AI评估往往具有嵌套的分层结构,表现出高度的复杂性,并且在测试最先进的人工智能系统时成本较高。为了解决这些挑战,我们引入了HiBayES,这是一种适用于AI评估统计的通用分层贝叶斯建模框架。HiBayES 支持在经典问题-回答基准和高级代理评估中的稳健推断,尤其是在低数据情景(例如,每项评估少于20个数据点)中。基于广义线性模型(GLMs)、贝叶斯数据分析和形式模型比较,HiBayES 提供了稳健的不确定性量化和参数估计。本文提供了HiBayES的全面介绍,包括示例说明、与常规统计方法的比较以及实施多层次贝叶斯GLMs的实用指导。此外,我们还提供了一个HiBayES软件包 [4](Beta版本),以实现开箱即用。