LLM2D

摘要

arXiv:2410.14138v2 通知类型: replace-cross 摘要：大规模视觉语言模型（LVLMs）在视觉理解任务上取得了显著进展。然而，在视觉推理任务上，它们往往优先考虑语言知识而忽视了图像信息，导致性能下降。为了解决这一问题，我们首先指出了现有解决方案的不足（即缺乏相关视觉描述和有限的多模态能力）。然后，我们将视觉推理过程分解为两个阶段：视觉感知（即视力）和文本推理（即智慧），并引入了一种新的视觉推理框架—ProReason。该框架具备多轮主动感知和分离的视觉-推理能力。具体而言，给定一个多模态问题时，ProReason 会不断进行主动信息收集和推理，直到通过必要的和充分的视觉描述得出答案。值得注意的是，这种能力的分离使得现有的大规模语言模型（LLMs）可以无缝集成来弥补LVLMs在推理方面的不足。我们的大量实验表明，在开源和闭源模型的一系列基准测试中，ProReason 在多步推理框架和被动对照方法上均表现优异。此外，在MMMU基准测试中，得益于LLM的帮助，ProReason 的性能提升了高达15%。我们对现有解决方案的见解以及LLM分离视角下的整合可能性为未来视觉推理技术的研究，特别是LLM帮助下的技术，提供了新的启示。