LLM2D

摘要

arXiv:2404.12966v5 宣传类型: 替换交叉摘要：最近，多模态大型语言模型（MLLMs）由于其卓越的指令跟随能力和广泛的世界知识，在多个学科中取得了显著的成果。然而，这些MLLMs是否具备类似人类的组合推理能力仍然是一个开放的问题。为了解开它们的推理行为，我们在本文中首先策展区际多模态假设推理基准（MARS-Bench）。有趣的是，我们发现大多数流行的MLLMs可以通过引入预设问题轻易地被误导，而这样的预设对人类推理来说显得很幼稚。此外，我们还提出了一种简单而有效的方法——主动推导（AD），这是一种新颖的强化学习范式，旨在鼓励模型在做出最终决定之前主动进行组合推理。通过提出AD方法的加持，一个MLLM在假设推理能力方面取得了显著提升，而不会损害其通用问题回答性能。我们还对开源和私有MLLMs在MARS-Bench上的进行了广泛的评估，并对AD方法进行了实验分析。