LLM2D

摘要

近年来，图像字幕领域的研究探索了纯文本训练方法，以克服成对图像文本数据带来的限制。然而，现有的纯文本训练方法往往忽略了训练阶段使用文本数据和推理阶段使用图像之间存在的模态差距。为了解决这个问题，我们提出了一种名为“图像类检索”的新方法，该方法将文本特征与视觉相关特征对齐，以减轻模态差距。我们的方法通过设计一个融合模块，将检索到的字幕与输入特征相结合，进一步提高了生成字幕的准确性。此外，我们还引入了一种基于频率的实体过滤技术，显著提高了字幕质量。我们将这些方法整合到一个统一的框架中，我们称之为 IFCap（图像类检索和基于频率的实体过滤用于零样本字幕）。通过大量的实验，我们简单而强大的方法证明了其有效性，在图像字幕和视频字幕方面，与基于纯文本训练的零样本字幕相比，我们的方法在性能上取得了显著的提升。