LLM2D
LOVA3:学习视觉问答、提问和评估
LOVA3: Learning to Visual Question Answering, Asking and Assessment
作者: Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2405.14974v3

摘要

arXiv:2405.14974v3 Announce Type: replace-cross 摘要:问题回答、提问和评估是人类理解世界和获取知识的三大天生能力。通过增强这些能力,人类可以更有效地利用数据,从而获得更好的理解与学习效果。当前的多模态大型语言模型(MLLMs)主要集中在问题回答上,往往忽视了提问和评估能力的全部潜力。受到人类学习机制的启发,我们提出了LOVA3,一个名为“学习视觉问题回答、提问和评估”的创新框架,旨在为MLLMs配备这些额外的能力。我们的方法包括创建两个补充训练任务GenQA和EvalQA,旨在培养在图像背景下提问和评估问题的技能。为了培养提问能力,我们构建了一个全面的多模态基础任务集。对于评估方面,我们引入了一个新的基准EvalQABench,包含64,000个训练样本(正样本和负样本各半)以及5,000个验证和测试样本。我们认为,增强MLLMs的问题回答、提问和评估能力将提升它们的多模态理解能力,最终提高其整体性能。为了验证这一假设,我们使用LOVA3框架训练MLLMs,并在多种多模态数据集和基准上评估它们。我们的结果显示了一致性的性能改进,突显了这些额外任务在培养MLLMs全面智能中的关键作用。代码可从https://github.com/showlab/LOVA3获取。