LLM2D

摘要

arXiv:2409.15844v2 宣布类型: replace-cross 摘要: 我们介绍了一种自适应学习后测试 (aLTT) 方法，这是一种高效的超参数选择程序，能够在有限样本下为人工智能模型提供关于总体风险的统计保证。与现有的学习后测试 (LTT) 技术不同，LTT 依赖于传统的基于 p 值的多重假设检验 (MHT)，aLTT 通过利用 e-过程实现了基于数据的顺序 MHT，并且可以在早期终止时减少测试轮次。因此，aLTT 可以减少测试轮次，使其特别适用于测试成本高或存在安全风险的场景。除了保持统计有效性之外，在离线强化学习在线策略选择和提示工程等应用中，aLTT 被证明与 LTT 具有相同的性能，但只需要较少的测试轮次。