LLM2D
ProReason:解耦视觉与智慧的多模态主动推理
ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom
作者: Jingqi Zhou, Sheng Wang, Jingwei Dong, Lei Li, Jiahui Gao, Jiyue Jiang, Lingpeng Kong, Chuan Wu
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2410.14138v2

摘要

arXiv:2410.14138v2 通知类型: replace-cross 摘要:大规模视觉语言模型(LVLMs)在视觉理解任务上取得了显著进展。然而,在视觉推理任务上,它们往往优先考虑语言知识而忽视了图像信息,导致性能下降。为了解决这一问题,我们首先指出了现有解决方案的不足(即缺乏相关视觉描述和有限的多模态能力)。然后,我们将视觉推理过程分解为两个阶段:视觉感知(即视力)和文本推理(即智慧),并引入了一种新的视觉推理框架—ProReason。该框架具备多轮主动感知和分离的视觉-推理能力。具体而言,给定一个多模态问题时,ProReason 会不断进行主动信息收集和推理,直到通过必要的和充分的视觉描述得出答案。值得注意的是,这种能力的分离使得现有的大规模语言模型(LLMs)可以无缝集成来弥补LVLMs在推理方面的不足。我们的大量实验表明,在开源和闭源模型的一系列基准测试中,ProReason 在多步推理框架和被动对照方法上均表现优异。此外,在MMMU基准测试中,得益于LLM的帮助,ProReason 的性能提升了高达15%。我们对现有解决方案的见解以及LLM分离视角下的整合可能性为未来视觉推理技术的研究,特别是LLM帮助下的技术,提供了新的启示。