LLM2D

摘要

arXiv:2502.04638v1 宣告类型: cross 摘要：街景图像在城市视觉环境的表示学习中被广泛使用，支持各种可持续发展目标，如环境感知和经济社会发展评估。然而，现有的图像表示方法难以具体编码街景图像中动态城市环境（如行人、车辆和植被）、建成环境（包括建筑物、道路和城市基础设施）以及环境氛围（如文化和经济氛围）的特征，以解决与城市相关的下游任务。在这项工作中，我们提出了一种创新的自监督学习框架，利用街景图像的时间和空间属性，学习动态城市环境的图像表示，以支持多种下游任务。通过在同一地点不同时段采集的街景图像以及同时采集的地理位置邻近的视角图像，我们构建了对比学习任务，旨在学习建成环境的时间不变特征和空间不变的邻域氛围特征。我们的方法在视觉场所识别、经济社会发展评估和人类环境感知等任务中显著优于传统的有监督和无监督方法。此外，我们展示了通过不同对比学习目标学习的图像表示在各种下游任务中的不同行为。本研究系统地讨论了基于街景图像的城市研究中的表示学习策略，提供了一个提升城市科学研究中视觉数据应用性的基准。代码可在 https://github.com/yonglleee/UrbanSTCL 获取。