LLM2D

摘要

高斯过程回归（GPR）在统计学和机器学习中广泛应用于需要不确定性度量的预测任务。其有效性依赖于均值函数、协方差核函数及其相关超参数的适当指定。严重的错误指定可能导致不准确的结果和问题性后果，尤其是在安全关键应用中。然而，文献中缺乏系统处理这些错误指定的方法。本文提出了一种通用框架来解决这些问题。首先，我们引入了一个灵活的两阶段GPR框架，将均值预测与不确定性量化（UQ）分离，以防止均值错误指定引入模型偏差。其次，通过一种新颖的自动核搜索算法来解决核函数错误指定问题，该算法由理论分析支持，从候选集中选择最优核。此外，我们提出了一种基于子采样的预热启动策略，用于超参数初始化，以提高效率并避免超参数错误指定。与仅在完整数据集上训练相比，我们的基于子采样的策略在计算成本大幅降低的情况下，能够产生更具竞争力或更好的性能。结合所有这些组件，我们推荐了两种GPR方法——精确和可扩展——旨在匹配可用的计算资源和特定的UQ需求。在包括UCI基准和安全关键医疗案例研究在内的真实世界数据集上的广泛评估，展示了我们方法的鲁棒性和精确性。