LLM2D

摘要

时空神经网络在城市场景中展现出巨大潜力，通过有效地捕捉时间和空间相关性。然而，城市环境不断发展，当前模型评估通常局限于交通场景，并且主要使用训练期后仅收集几周的数据来评估模型性能。这些模型的泛化能力在很大程度上仍未探索。为了解决这个问题，我们提出了一个时空分布外 (ST-OOD) 基准，它包含六种城市场景：自行车共享、311 服务、行人计数、交通速度、交通流量、叫车需求和自行车共享，每种场景都有分布内（同一年）和分布外（下一年）设置。我们广泛地评估了最先进的时空模型，发现它们的性能在分布外设置中显著下降，大多数模型的性能甚至比简单的多层感知器 (MLP) 更差。我们的发现表明，当前领先的方法倾向于过度依赖参数来过度拟合训练数据，这可能导致在分布内数据上表现良好，但在分布外数据上却经常导致泛化能力差。我们还调查了 dropout 是否可以减轻过度拟合的负面影响。我们的结果表明，轻微的 dropout 率可以显著提高大多数数据集的泛化性能，对分布内性能的影响很小。然而，平衡分布内和分布外性能仍然是一个具有挑战性的问题。我们希望提出的基准能够鼓励对这一关键问题的进一步研究。