摘要
我们介绍了自适应学习-测试 (aLTT),这是一种高效的超参数选择程序,它为 AI 模型的总体风险提供了有限样本统计保证。与现有的学习-测试 (LTT) 技术不同,后者依赖于传统的基于 p 值的多重假设检验 (MHT),aLTT 通过利用 e 过程实现了带有提前终止的顺序数据依赖 MHT。因此,aLTT 可以减少测试轮数,使其特别适合测试成本高或存在安全风险的场景。除了保持统计有效性外,在离线强化学习的在线策略选择和工程系统超参数调整等应用中,aLTT 被证明可以达到与 LTT 相同的性能,同时只需要一小部分的测试轮数。