LLM2D

摘要

大型语言模型（LLM）在诸多自然语言处理任务中已取代传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法…… 在智能交通的各个领域，开发有效的路径表示正变得越来越重要。虽然预训练的路径表示学习模型已显示出性能改进，但它们主要关注单模态数据（即道路网络）的拓扑结构，而忽略了与路径相关的图像（例如遥感图像）的几何和上下文特征。类似于人类的理解，整合来自多种模态的信息可以提供更全面的视角，从而提高表示精度和泛化能力。然而，信息粒度的差异阻碍了基于道路网络的路径（道路路径）和基于图像的路径（图像路径）的语义对齐，而多模态数据的异构性给有效融合和利用带来了巨大挑战。在本文中，我们提出了一种新颖的多模态、多粒度路径表示学习框架（MM-Path），该框架可以通过整合道路路径和图像路径的模态来学习通用的路径表示。为了增强多模态数据的对齐，我们开发了一种多粒度对齐策略，该策略系统地将节点、道路子路径和道路路径与其对应的图像块关联起来，确保详细的局部信息和更广泛的全局上下文同步。为了有效地解决多模态数据的异构性问题，我们引入了一个基于图的跨模态残差融合组件，旨在全面融合不同模态和粒度下的信息。最后，我们在两个大规模真实世界数据集上进行了大量的实验，在两个下游任务下验证了所提出的MM-Path的有效性。这是被KDD 2025接收的论文的扩展版本。