LLM2D
基于知识的视觉问答中增强多模态LLM的自我反思性令牌
Augmenting Multimodal LLMs with Self-Reflective Tokens for Knowledge-based Visual Question Answering
作者: Federico Cocchi, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2411.16863v2

摘要

arXiv:2411.16863v2 宣告类型: replace-cross 摘要:多模态大语言模型(MLLMs)是大语言模型的自然扩展,用于处理多模态输入,结合文本和图像数据。由于它们能够处理涉及两种模态的复杂任务,因此它们最近受到了关注。然而,它们的有效性受限于训练期间获取的知识,这限制了它们的实际用途。在这项工作中,我们介绍了一种新的方法来增强MLLMs的适应性,通过集成外部知识来源。我们提出的模型,Reflective LLaVA(ReflectiVA),利用反射性令牌动态确定是否需要外部知识,并预测从外部数据库检索信息的相关性。令牌是按照两阶段两模型训练食谱进行训练的。这最终使MLLM能够在管理外部知识的同时保留流畅性和在不需要外部知识的任务上的性能。通过我们的实验,我们展示了ReflectiVA在基于知识的视觉问题回答中的有效性,突显了其与现有方法相比的优越性能。源代码和训练模型可以在https://aimagelab.github.io/ReflectiVA 公开获得。