摘要
arXiv:2501.01904v2 通知类型: 交叉替换
摘要: 近来,基于大规模语言模型(LLMs)的慢思考推理系统由于在推理过程中扩展思考时间而引起了广泛关注。此外,越来越多的人开始将这种能力适应到多模态大规模语言模型(MLLMs)中。鉴于MLLMs处理不同模态的复杂数据语义,多模态慢思考系统的实施似乎更具挑战性。
为了应对这一问题,本文探索了一种简单的做法,即通过少量的文本长形式思考数据对一个强大的MLLM进行微调,从而得到一个多模态慢思考系统,Virgo(视觉推理与长思考)。我们发现,这些用自然语言表达的长形式推理过程可以有效地转移到MLLMs中。此外,我们认为这种文本推理数据可能会比视觉推理数据更有效地激活MLLMs的慢思考能力。尽管这项工作尚处于初步阶段,但它证明了慢思考能力本质上与语言模型组件有关,这些能力可以在不同模态或领域之间转移。这一发现可以用来指导更强大慢思考推理系统的开发。我们已将我们的资源发布在 https://github.com/RUCAIBox/Virgo。