LLM2D

摘要

从大规模图像-文本对中预训练视觉和文本表示正成为许多下游视觉-语言任务的标准方法。基于 Transformer 的模型通过一系列自监督学习任务学习跨模态和模态内注意力。本文提出了一种用于视觉和文本表示学习的新颖架构 LAViTeR。主要模块，视觉文本对齐 (VTA) 将由两个辅助任务辅助，即基于 GAN 的图像合成和图像字幕。我们还提出了一种新的评估指标，用于衡量学习到的视觉和文本嵌入之间的相似度。在两个公共数据集 CUB 和 MS-COCO 上的实验结果表明，在联合特征嵌入空间中视觉和文本表示对齐性能优越。