LLM2D

摘要

时空神经网络在城市场景中展现出巨大的潜力，有效地捕获了时间和空间相关性。然而，城市环境不断变化，当前的模型评估往往局限于交通场景，并且主要使用训练期后仅几周收集的数据来评估模型性能。这些模型的泛化能力在很大程度上仍未探索。为了解决这个问题，我们提出了一个时空分布外 (ST-OOD) 基准，其中包含六个城市场景：共享单车、311 服务、行人计数、交通速度、交通流量、网约车需求和共享单车，每个场景都包含分布内（同一年）和分布外（下一年）设置。我们对最先进的时空模型进行了广泛评估，发现它们的性能在分布外设置下显著下降，大多数模型的表现甚至比简单的多层感知器 (MLP) 更差。我们的研究结果表明，当前领先的方法往往过度依赖参数来过拟合训练数据，这可能导致在分布内数据上表现良好，但在分布外数据上的泛化性能却很差。我们还研究了 dropout 是否可以减轻过拟合的负面影响。我们的结果表明，轻微的 dropout 率可以显著提高大多数数据集的泛化性能，同时对分布内性能的影响最小。然而，平衡分布内和分布外性能仍然是一个具有挑战性的问题。我们希望提出的基准能够鼓励对这一关键问题的进一步研究。