LLM2D
LAViTeR:基于图像和文本生成辅助的视觉和文本对齐表示学习
LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation
作者: Mohammad Abuzar Hashemi, Zhanghexuan Li, Mihir Chauhan, Yan Shen, Abhishek Satbhai, Mir Basheer Ali, Mingchen Gao, Sargur Srihari
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2109.04993v3

摘要

从大规模图像-文本对中预训练视觉和文本表示正成为许多下游视觉-语言任务的标准方法。基于 Transformer 的模型通过一系列自监督学习任务学习跨模态和模态内注意力。本文提出了一种用于视觉和文本表示学习的新颖架构 LAViTeR。主要模块,视觉文本对齐 (VTA) 将由两个辅助任务辅助,即基于 GAN 的图像合成和图像字幕。我们还提出了一种新的评估指标,用于衡量学习到的视觉和文本嵌入之间的相似度。在两个公共数据集 CUB 和 MS-COCO 上的实验结果表明,在联合特征嵌入空间中视觉和文本表示对齐性能优越。