LLM2D

摘要

在许多机器学习的实际应用中，我们想知道是否可以利用已收集的数据进行训练，并在某些方面（时间段、地理区域等）存在质的差异的新测试数据子集上获得准确的预测。另一个问题是，数据子集是否足够相似，以便在模型训练期间将子集组合起来。我们提出了 SOAK（相同/其他/所有 K 折交叉验证）方法，这是一种可以用于回答这两个问题的新方法。SOAK 系统地比较了在不同数据子集上训练的模型，然后用于对固定测试子集进行预测，以估计数据子集中可学习/可预测模式的相似性。我们展示了在六个新的真实数据集上使用 SOAK 的结果（具有地理/时间子集，以检查预测在新子集上是否准确）、3 个图像对数据集（子集是不同的图像类型，以检查我们在相似图像上获得更小的预测误差）以及 11 个具有预定义训练/测试分割的基准数据集（以检查预定义分割的相似性）。