LLM2D

摘要

arXiv:2405.14974v3 Announce Type: replace-cross 摘要：问题回答、提问和评估是人类理解世界和获取知识的三大天生能力。通过增强这些能力，人类可以更有效地利用数据，从而获得更好的理解与学习效果。当前的多模态大型语言模型（MLLMs）主要集中在问题回答上，往往忽视了提问和评估能力的全部潜力。受到人类学习机制的启发，我们提出了LOVA3，一个名为“学习视觉问题回答、提问和评估”的创新框架，旨在为MLLMs配备这些额外的能力。我们的方法包括创建两个补充训练任务GenQA和EvalQA，旨在培养在图像背景下提问和评估问题的技能。为了培养提问能力，我们构建了一个全面的多模态基础任务集。对于评估方面，我们引入了一个新的基准EvalQABench，包含64,000个训练样本（正样本和负样本各半）以及5,000个验证和测试样本。我们认为，增强MLLMs的问题回答、提问和评估能力将提升它们的多模态理解能力，最终提高其整体性能。为了验证这一假设，我们使用LOVA3框架训练MLLMs，并在多种多模态数据集和基准上评估它们。我们的结果显示了一致性的性能改进，突显了这些额外任务在培养MLLMs全面智能中的关键作用。代码可从https://github.com/showlab/LOVA3获取。