LLM2D
基于知识的视觉问答中使用自反射标记增强多模态大型语言模型
Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering
作者: Federico Cocchi, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2411.16863v1

摘要

多模态大型语言模型 (MLLMs) 是大型语言模型处理多模态输入(结合文本和图像数据)的自然延伸。由于其能够处理涉及两种模态的复杂任务,它们最近受到了广泛关注。然而,它们的有效性仅限于训练期间获得的知识,这限制了它们的实际效用。在这项工作中,我们提出了一种新方法,通过整合外部知识源来增强 MLLMs 的适应性。我们提出的模型,Reflective LLaVA (ReflectiVA),利用反射标记动态地确定对外部知识的需求,并预测从外部数据库检索到的信息的关联性。标记采用两阶段两模型训练方案进行训练。这最终使 MLLM 能够管理外部知识,同时保持在不需要外部知识的任务上的流畅性和性能。通过我们的实验,我们证明了 ReflectiVA 在基于知识的视觉问答中的有效性,突出了其与现有方法相比的优越性能。源代码和训练好的模型已公开发布在 https://github.com/aimagelab/ReflectiVA。