LLM2D

摘要

arXiv:2503.09445v2 宣告类型: 替换-交叉摘要：基于混合专家（Mixture-of-Experts, MoE）架构的视觉-语言模型（Vision-Language Models, VLMs）已成为多模态理解的关键范式，提供了一种强大的框架来整合视觉和语言信息。然而，任务复杂性和多样性不断增加，给异构视觉专家之间的负载均衡带来了重大挑战，优化一个专家的表现往往会导致其他专家能力的损失。为了应对任务异质性及专家负载不平衡问题，我们提出了Astrea，一种基于渐进预对齐的新型多专家协作VLM架构。Astrea引入了三项关键创新：1）一种异构专家协调机制，将四个专门模型（检测、分割、分类、描述）整合到一个全面的专家矩阵中，该矩阵涵盖了视觉理解的关键元素；2）一种动态知识融合策略，包括渐进预对齐，通过对比学习在VLM潜在空间内协调专家，同时使用概率激活的随机残差连接保持知识连续；3）一种增强的优化框架，利用动量对比学习进行长距离依赖建模，并使用自适应权重分配器实现实时专家贡献校准。在视觉问答（VQA）、图像描述和跨模态检索的12个基准任务上的广泛评估表明，Astrea在最新模型上取得了显著优势，平均性能提高了+4.7%。本研究首次实证证明渐进预对齐策略使VLMs能够克服任务异质性限制，为开发通用多模态代理建立了新的方法论基础。