LLM2D
通过自动核搜索和子采样实现高效的两阶段高斯过程回归
Efficient Two-Stage Gaussian Process Regression Via Automatic Kernel Search and Subsampling
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2405.13785v2

摘要

高斯过程回归(GPR)在统计学和机器学习中广泛应用于需要不确定性度量的预测任务。其有效性依赖于均值函数、协方差核函数及其相关超参数的适当指定。严重的错误指定可能导致不准确的结果和问题性后果,尤其是在安全关键应用中。然而,文献中缺乏系统处理这些错误指定的方法。本文提出了一种通用框架来解决这些问题。首先,我们引入了一个灵活的两阶段GPR框架,将均值预测与不确定性量化(UQ)分离,以防止均值错误指定引入模型偏差。其次,通过一种新颖的自动核搜索算法来解决核函数错误指定问题,该算法由理论分析支持,从候选集中选择最优核。此外,我们提出了一种基于子采样的预热启动策略,用于超参数初始化,以提高效率并避免超参数错误指定。与仅在完整数据集上训练相比,我们的基于子采样的策略在计算成本大幅降低的情况下,能够产生更具竞争力或更好的性能。结合所有这些组件,我们推荐了两种GPR方法——精确和可扩展——旨在匹配可用的计算资源和特定的UQ需求。在包括UCI基准和安全关键医疗案例研究在内的真实世界数据集上的广泛评估,展示了我们方法的鲁棒性和精确性。