摘要
arXiv:2404.12966v5 宣传类型: 替换交叉
摘要:最近,多模态大型语言模型(MLLMs)由于其卓越的指令跟随能力和广泛的世界知识,在多个学科中取得了显著的成果。然而,这些MLLMs是否具备类似人类的组合推理能力仍然是一个开放的问题。为了解开它们的推理行为,我们在本文中首先策展区际多模态假设推理基准(MARS-Bench)。有趣的是,我们发现大多数流行的MLLMs可以通过引入预设问题轻易地被误导,而这样的预设对人类推理来说显得很幼稚。此外,我们还提出了一种简单而有效的方法——主动推导(AD),这是一种新颖的强化学习范式,旨在鼓励模型在做出最终决定之前主动进行组合推理。通过提出AD方法的加持,一个MLLM在假设推理能力方面取得了显著提升,而不会损害其通用问题回答性能。我们还对开源和私有MLLMs在MARS-Bench上的进行了广泛的评估,并对AD方法进行了实验分析。