LLM2D

摘要

多模态大型语言模型 (MLLMs) 是大型语言模型处理多模态输入（结合文本和图像数据）的自然延伸。由于其能够处理涉及两种模态的复杂任务，它们最近受到了广泛关注。然而，它们的有效性仅限于训练期间获得的知识，这限制了它们的实际效用。在这项工作中，我们提出了一种新方法，通过整合外部知识源来增强 MLLMs 的适应性。我们提出的模型，Reflective LLaVA (ReflectiVA)，利用反射标记动态地确定对外部知识的需求，并预测从外部数据库检索到的信息的关联性。标记采用两阶段两模型训练方案进行训练。这最终使 MLLM 能够管理外部知识，同时保持在不需要外部知识的任务上的流畅性和性能。通过我们的实验，我们证明了 ReflectiVA 在基于知识的视觉问答中的有效性，突出了其与现有方法相比的优越性能。源代码和训练好的模型已公开发布在 https://github.com/aimagelab/ReflectiVA。