摘要
arXiv:2412.12932v2 通知类型: 替换-交叉
摘要:大型多模态语言视觉模型(LVLMs)在多模态任务中最近显示出了令人惊叹的成功,包括多模态链式思考(MCoT)推理的进步。尽管取得了这些成功,当前的基准测试仍然遵循传统的范式,即多模态输入和文本模态输出,这导致了诸如缺乏视觉操作和表达模糊等重大缺点。受此启发,我们介绍了一个新的多模态链式思考(CoMT)基准测试以解决这些限制。不同于传统的MCoT基准测试,CoMT要求多模态输入和多模态推理输出,旨在模仿人类的推理过程,这种推理过程内在地结合了视觉操作。具体而言,CoMT包括四个类别:(1)视觉创作,(2)视觉删除,(3)视觉更新,和(4)视觉选择,以全面探索实际场景中的复杂视觉操作和简洁表达。我们在CoMT上评估了各种LVLMs和策略,揭示了当前方法的能力和局限性的某些关键见解。我们希望CoMT能够激发更多关于将多模态生成引入推理过程的研究。