LLM2D

摘要

arXiv:2409.13980v1 公告类型: 交叉摘要: 视觉-语言(VL)研究的最新进展为复杂视觉推理提出了新的基准，挑战了模型的先进推理能力。传统的视觉-语言模型(VLMs)在视觉感知任务中表现出色，但在复杂推理场景中表现不佳。相反，大型语言模型(LLMs)展示了强大的文本推理能力，但缺乏视觉敏锐度。为了弥合这一差距，我们提出了复杂视觉推理大型语言模型(CVR-LLM)，利用VLMs的视觉感知能力和LLMs的广泛推理能力。与最近需要投影层的多模态大型语言模型(MLLMs)不同，我们的方法通过迭代自精炼循环将图像转换为详细的、上下文感知的描述，并利用LLMs的文本知识进行准确预测，无需额外训练。我们还引入了一种新颖的多模态上下文学习(ICL)方法，以增强LLMs的上下文理解和推理能力。此外，我们引入了链式比较(CoC)，一种逐步比较技术，能够对比预测的各个方面。我们的CVR-LLM在广泛的复杂视觉推理任务中进行了首次全面研究，并在所有任务中达到了最先进的性能。