LLM2D

摘要

arXiv:2505.02299v1 类型: cross 摘要：机器学习（ML）模型在训练时使用的是同分布（ID）数据，但在部署过程中往往会遇到异分布（OOD）输入——这在关键安全领域中构成了严重风险。近年来的研究主要集中在设计评分函数以量化OOD不确定性，这些评分函数的阈值通常基于ID数据设置，以达到目标的真实阳性率（TPR），因为部署前的OOD数据有限。然而，这些基于TPR的阈值没有控制假阳性率（FPR），这通常会导致高FPR，即OOD点被误分类为ID。此外，固定的评分函数和阈值缺乏适应性，无法处理新的、不断演变的OOD输入，导致性能不佳。为了解决这些挑战，我们提出了一种包含人类在环的框架，该框架\emph{能够在实时更新评分函数和阈值方面安全地进行调整}，基于实际的OOD输入。我们的方法在始终严格控制FPR的同时最大化TPR，即使系统随着时间的推移而适应。我们提供了在平稳条件下对FPR控制的理论保证，并在OpenOOD基准测试上进行了广泛的实证评估，证明了我们的方法在保持FPR控制的同时实现了更高的TPR，超越了现有的方法。