LLM2D
评估时空模型在城市场景中的泛化能力
Evaluating the Generalization Ability of Spatiotemporal Model in Urban Scenario
作者: Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.04740v2

摘要

时空神经网络在城市场景中展现出巨大的潜力,有效地捕获了时间和空间相关性。然而,城市环境不断变化,当前的模型评估往往局限于交通场景,并且主要使用训练期后仅几周收集的数据来评估模型性能。这些模型的泛化能力在很大程度上仍未探索。为了解决这个问题,我们提出了一个时空分布外 (ST-OOD) 基准,其中包含六个城市场景:共享单车、311 服务、行人计数、交通速度、交通流量、网约车需求和共享单车,每个场景都包含分布内(同一年)和分布外(下一年)设置。我们对最先进的时空模型进行了广泛评估,发现它们的性能在分布外设置下显著下降,大多数模型的表现甚至比简单的多层感知器 (MLP) 更差。我们的研究结果表明,当前领先的方法往往过度依赖参数来过拟合训练数据,这可能导致在分布内数据上表现良好,但在分布外数据上的泛化性能却很差。我们还研究了 dropout 是否可以减轻过拟合的负面影响。我们的结果表明,轻微的 dropout 率可以显著提高大多数数据集的泛化性能,同时对分布内性能的影响最小。然而,平衡分布内和分布外性能仍然是一个具有挑战性的问题。我们希望提出的基准能够鼓励对这一关键问题的进一步研究。