LLM2D
Astrea:一种基于MOE的 progressive alignment 视觉理解模型
Astrea: A MOE-based Visual Understanding Model with Progressive Alignment
作者: Xiaoda Yang, JunYu Lu, Hongshun Qiu, Sijing Li, Hao Li, Shengpeng Ji, Xudong Tang, Jiayang Xu, Jiaqi Duan, Ziyue Jiang, Cong Lin, Sihang Cai, Zejian Xie, Zhuoyang Song, Songxin Zhang
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2503.09445v2

摘要

arXiv:2503.09445v2 宣告类型: 替换-交叉 摘要:基于混合专家(Mixture-of-Experts, MoE)架构的视觉-语言模型(Vision-Language Models, VLMs)已成为多模态理解的关键范式,提供了一种强大的框架来整合视觉和语言信息。然而,任务复杂性和多样性不断增加,给异构视觉专家之间的负载均衡带来了重大挑战,优化一个专家的表现往往会导致其他专家能力的损失。为了应对任务异质性及专家负载不平衡问题,我们提出了Astrea,一种基于渐进预对齐的新型多专家协作VLM架构。Astrea引入了三项关键创新:1)一种异构专家协调机制,将四个专门模型(检测、分割、分类、描述)整合到一个全面的专家矩阵中,该矩阵涵盖了视觉理解的关键元素;2)一种动态知识融合策略,包括渐进预对齐,通过对比学习在VLM潜在空间内协调专家,同时使用概率激活的随机残差连接保持知识连续;3)一种增强的优化框架,利用动量对比学习进行长距离依赖建模,并使用自适应权重分配器实现实时专家贡献校准。在视觉问答(VQA)、图像描述和跨模态检索的12个基准任务上的广泛评估表明,Astrea在最新模型上取得了显著优势,平均性能提高了+4.7%。本研究首次实证证明渐进预对齐策略使VLMs能够克服任务异质性限制,为开发通用多模态代理建立了新的方法论基础。