摘要
arXiv:2501.19201v1 交叉公告类型
摘要:Chain-of-Thought (CoT) 理论已成为改善多模态大型语言模型 (MLLMs) 复杂问题解决能力的一个强大框架。然而,文本推理的冗长性引入了显著的低效率。在本文中,我们提出了一种高效的推理框架 $\textbf{Heima}$(隐藏的Llama),该框架利用在隐藏潜空间中的CoT推理。我们设计了Heima编码器,使用单个思考令牌将每个中间CoT压缩成一个紧凑的高层隐藏表示,从而有效减少冗长性并减少推理过程中所需的整体令牌数量。同时,我们设计了相应的Heima解码器,与传统的大型语言模型 (LLMs) 相结合,以适应方式解释隐藏表示为可变长度的文本序列,重构与原始CoT接近的推理过程。在多种多模态推理 MLLM 基准测试中的实验结果表明,Heima模型在保持甚至提高零样本任务准确性的同时实现了更高的生成效率。此外,Heima解码器对多模态推理过程的有效重构证实了我们方法的鲁棒性和可解释性。