LLM2D

摘要

近年来，图像文本检索技术发展迅速。然而，由于视觉语义失衡导致非语义视觉特征和文本特征匹配错误，该技术在遥感领域仍然面临挑战。为了解决这个问题，我们提出了一种新颖的定向视觉语义嵌入模型（DOVE），用于挖掘视觉和语言之间的关系。我们的重点是在潜在空间中进行视觉和文本表示，并将它们尽可能地引导到无冗余的区域视觉表示。具体来说，区域定向注意力模块（ROAM）根据区域视觉特征自适应地调整潜在语义空间中最终视觉和文本嵌入之间的距离。同时，我们设计了一个轻量级的挖掘文本基因组助手（DTGA），以扩展易处理文本表示的范围，并使用更少的注意力操作来增强全局词级语义连接。最终，我们利用全局视觉语义约束来减少单一视觉依赖性，并作为最终视觉和文本表示的外部约束。我们在两个基准数据集RSICD和RSITMD上进行了大量的实验，包括参数评估、定量比较、消融研究和可视化分析，验证了我们方法的有效性和优越性。