摘要
在许多机器学习的实际应用中,我们想知道是否可以利用已收集的数据进行训练,并在某些方面(时间段、地理区域等)存在质的差异的新测试数据子集上获得准确的预测。另一个问题是,数据子集是否足够相似,以便在模型训练期间将子集组合起来。我们提出了 SOAK(相同/其他/所有 K 折交叉验证)方法,这是一种可以用于回答这两个问题的新方法。SOAK 系统地比较了在不同数据子集上训练的模型,然后用于对固定测试子集进行预测,以估计数据子集中可学习/可预测模式的相似性。我们展示了在六个新的真实数据集上使用 SOAK 的结果(具有地理/时间子集,以检查预测在新子集上是否准确)、3 个图像对数据集(子集是不同的图像类型,以检查我们在相似图像上获得更小的预测误差)以及 11 个具有预定义训练/测试分割的基准数据集(以检查预定义分割的相似性)。