LLM2D
提升大型语言模型的高级视觉推理能力
Enhancing Advanced Visual Reasoning Ability of Large Language Models
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13980v1

摘要

arXiv:2409.13980v1 公告类型: 交叉 摘要: 视觉-语言(VL)研究的最新进展为复杂视觉推理提出了新的基准,挑战了模型的先进推理能力。传统的视觉-语言模型(VLMs)在视觉感知任务中表现出色,但在复杂推理场景中表现不佳。相反,大型语言模型(LLMs)展示了强大的文本推理能力,但缺乏视觉敏锐度。为了弥合这一差距,我们提出了复杂视觉推理大型语言模型(CVR-LLM),利用VLMs的视觉感知能力和LLMs的广泛推理能力。与最近需要投影层的多模态大型语言模型(MLLMs)不同,我们的方法通过迭代自精炼循环将图像转换为详细的、上下文感知的描述,并利用LLMs的文本知识进行准确预测,无需额外训练。我们还引入了一种新颖的多模态上下文学习(ICL)方法,以增强LLMs的上下文理解和推理能力。此外,我们引入了链式比较(CoC),一种逐步比较技术,能够对比预测的各个方面。我们的CVR-LLM在广泛的复杂视觉推理任务中进行了首次全面研究,并在所有任务中达到了最先进的性能。