LLM2D

摘要

arXiv:2412.12932v2 通知类型: 替换-交叉摘要：大型多模态语言视觉模型（LVLMs）在多模态任务中最近显示出了令人惊叹的成功，包括多模态链式思考（MCoT）推理的进步。尽管取得了这些成功，当前的基准测试仍然遵循传统的范式，即多模态输入和文本模态输出，这导致了诸如缺乏视觉操作和表达模糊等重大缺点。受此启发，我们介绍了一个新的多模态链式思考（CoMT）基准测试以解决这些限制。不同于传统的MCoT基准测试，CoMT要求多模态输入和多模态推理输出，旨在模仿人类的推理过程，这种推理过程内在地结合了视觉操作。具体而言，CoMT包括四个类别：（1）视觉创作，（2）视觉删除，（3）视觉更新，和（4）视觉选择，以全面探索实际场景中的复杂视觉操作和简洁表达。我们在CoMT上评估了各种LVLMs和策略，揭示了当前方法的能力和局限性的某些关键见解。我们希望CoMT能够激发更多关于将多模态生成引入推理过程的研究。