LLM2D

摘要

arXiv:2501.19069v1 交叉发布类型: cross 摘要: 为了弥合视觉语言（VL）之间的语义差距，需要开发一个良好的对齐策略，这包括处理语义多样性、视觉信息的抽象表示以及模型的泛化能力。近期的工作使用基于检测器的边界框或具有定期分区的补丁来表示视觉语义。尽管当前的范式取得了进步，但仍不足以充分捕捉各种对象之间微妙的上下文关系。本文提出了一种综合的视觉语义表示模块，需要利用全景分割生成一致的细粒度语义特征。此外，我们提出了一种新的图尖峰神经网络（GSHN，Graph Spiking Hybrid Network），它结合了尖峰神经网络（SNNs）和图注意力网络（GATs）的优势，以编码视觉语义信息。令人感兴趣的是，该模型不仅编码实例的离散和连续潜在变量，还能够巧妙地捕捉局部和全局上下文特征，从而显著增强语义表示的丰富性和多样性。借助SNNs固有的时空特性，我们采用对比学习（CL）来增强嵌入基于相似性的表示。这种策略减轻了模型的计算负担，并通过构建正样本和负样本对增强了有意义的视觉表示。我们设计了一种创新的预训练方法——尖峰文本学习（STL，Spiked Text Learning），它使用文本特征以提高离散语义的编码能力。实验结果表明，提出的GSHN在多个VL下游任务中表现出有希望的结果。