摘要
从大规模图像-文本对中预训练视觉和文本表示已成为许多下游视觉-语言任务的标准方法。基于 Transformer 的模型通过一系列自监督学习任务学习模态间和模态内的注意力。本文提出了一种用于视觉和文本表示学习的新架构 LAViTeR。主要模块,视觉文本对齐(VTA)将由两个辅助任务辅助,即基于 GAN 的图像合成和图像字幕。我们还提出了一种新的评估指标来衡量学习到的视觉和文本嵌入之间的相似性。在两个公共数据集 CUB 和 MS-COCO 上的实验结果表明,在联合特征嵌入空间中,视觉和文本表示对齐效果更好。