LLM2D

摘要

arXiv:2505.05602v1 公告类型: 新摘要：随着大型语言模型（LLMs）和其他AI系统的不断发展，从固有的随机输出中稳健地估计其能力，同时系统地量化这些估计中的不确定性变得越来越重要。此外，先进的AI评估往往具有嵌套的分层结构，表现出高度的复杂性，并且在测试最先进的人工智能系统时成本较高。为了解决这些挑战，我们引入了HiBayES，这是一种适用于AI评估统计的通用分层贝叶斯建模框架。HiBayES 支持在经典问题-回答基准和高级代理评估中的稳健推断，尤其是在低数据情景（例如，每项评估少于20个数据点）中。基于广义线性模型（GLMs）、贝叶斯数据分析和形式模型比较，HiBayES 提供了稳健的不确定性量化和参数估计。本文提供了HiBayES的全面介绍，包括示例说明、与常规统计方法的比较以及实施多层次贝叶斯GLMs的实用指导。此外，我们还提供了一个HiBayES软件包 [4]（Beta版本），以实现开箱即用。