摘要
arXiv:2503.09445v2 宣告类型: 替换-交叉
摘要:基于混合专家(Mixture-of-Experts, MoE)架构的视觉-语言模型(Vision-Language Models, VLMs)已成为多模态理解的关键范式,提供了一种强大的框架来整合视觉和语言信息。然而,任务复杂性和多样性不断增加,给异构视觉专家之间的负载均衡带来了重大挑战,优化一个专家的表现往往会导致其他专家能力的损失。为了应对任务异质性及专家负载不平衡问题,我们提出了Astrea,一种基于渐进预对齐的新型多专家协作VLM架构。Astrea引入了三项关键创新:1)一种异构专家协调机制,将四个专门模型(检测、分割、分类、描述)整合到一个全面的专家矩阵中,该矩阵涵盖了视觉理解的关键元素;2)一种动态知识融合策略,包括渐进预对齐,通过对比学习在VLM潜在空间内协调专家,同时使用概率激活的随机残差连接保持知识连续;3)一种增强的优化框架,利用动量对比学习进行长距离依赖建模,并使用自适应权重分配器实现实时专家贡献校准。在视觉问答(VQA)、图像描述和跨模态检索的12个基准任务上的广泛评估表明,Astrea在最新模型上取得了显著优势,平均性能提高了+4.7%。本研究首次实证证明渐进预对齐策略使VLMs能够克服任务异质性限制,为开发通用多模态代理建立了新的方法论基础。