摘要
arXiv:2409.15844v2 宣布类型: replace-cross
摘要: 我们介绍了一种自适应学习后测试 (aLTT) 方法,这是一种高效的超参数选择程序,能够在有限样本下为人工智能模型提供关于总体风险的统计保证。与现有的学习后测试 (LTT) 技术不同,LTT 依赖于传统的基于 p 值的多重假设检验 (MHT),aLTT 通过利用 e-过程实现了基于数据的顺序 MHT,并且可以在早期终止时减少测试轮次。因此,aLTT 可以减少测试轮次,使其特别适用于测试成本高或存在安全风险的场景。除了保持统计有效性之外,在离线强化学习在线策略选择和提示工程等应用中,aLTT 被证明与 LTT 具有相同的性能,但只需要较少的测试轮次。