LLM2D

摘要

arXiv:2503.19276v1 交叉公告类型：交叉摘要：语义分割在像素级图像理解方面取得了显著进展，但在捕捉对象间的上下文和语义关系方面仍存在局限性。当前模型，如卷积神经网络（CNN）和基于Transformer的架构，擅长识别像素级特征，但在区分语义相似的对象（例如，医院场景中的“医生”和“护士”）或理解复杂的上下文情景（例如，在自动驾驶中区分奔跑的儿童和普通行人）方面表现不佳。为了解决这些限制，我们提出了一种新的上下文感知语义分割框架，该框架结合了大规模语言模型（LLMs）和最先进的视觉主干架构。我们的混合模型利用Swin Transformer进行稳健的视觉特征提取，并利用GPT-4通过文本嵌入丰富语义理解。引入了一种跨注意力机制，以对齐视觉和语言特征，使模型能够更有效地进行上下文推理。此外，使用图神经网络（GNN）建模场景内的对象关系，捕捉传统模型忽略的依赖关系。在基准数据集（如COCO、Cityscapes）上的实验结果显示，我们的方法在像素级精度（mIoU）和上下文理解（mAP）方面均优于现有方法。这项工作填补了视觉与语言之间的差距，为包括自动驾驶、医学成像和机器人技术在内的智能和上下文感知视觉系统铺平了道路。