LLM2D

摘要

我们介绍了自适应学习-测试 (aLTT)，这是一种高效的超参数选择程序，它为 AI 模型的总体风险提供了有限样本统计保证。与现有的学习-测试 (LTT) 技术不同，后者依赖于传统的基于 p 值的多重假设检验 (MHT)，aLTT 通过利用 e 过程实现了带有提前终止的顺序数据依赖 MHT。因此，aLTT 可以减少测试轮数，使其特别适合测试成本高或存在安全风险的场景。除了保持统计有效性外，在离线强化学习的在线策略选择和工程系统超参数调整等应用中，aLTT 被证明可以达到与 LTT 相同的性能，同时只需要一小部分的测试轮数。