LLM2D
CoMT: 一种新的多模态链式思维基准用于大型视觉语言模型
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models
作者: Zihui Cheng, Qiguang Chen, Jin Zhang, Hao Fei, Xiaocheng Feng, Wanxiang Che, Min Li, Libo Qin
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.12932v2

摘要

arXiv:2412.12932v2 通知类型: 替换-交叉 摘要:大型多模态语言视觉模型(LVLMs)在多模态任务中最近显示出了令人惊叹的成功,包括多模态链式思考(MCoT)推理的进步。尽管取得了这些成功,当前的基准测试仍然遵循传统的范式,即多模态输入和文本模态输出,这导致了诸如缺乏视觉操作和表达模糊等重大缺点。受此启发,我们介绍了一个新的多模态链式思考(CoMT)基准测试以解决这些限制。不同于传统的MCoT基准测试,CoMT要求多模态输入和多模态推理输出,旨在模仿人类的推理过程,这种推理过程内在地结合了视觉操作。具体而言,CoMT包括四个类别:(1)视觉创作,(2)视觉删除,(3)视觉更新,和(4)视觉选择,以全面探索实际场景中的复杂视觉操作和简洁表达。我们在CoMT上评估了各种LVLMs和策略,揭示了当前方法的能力和局限性的某些关键见解。我们希望CoMT能够激发更多关于将多模态生成引入推理过程的研究。