摘要
arXiv:2505.07062v1 公告类型: cross
摘要:我们介绍了Seed1.5-VL,这是一个设计用于推进通用多模态理解和推理的视觉语言基础模型。Seed1.5-VL 由一个拥有 532M 参数的视觉编码器和一个具有 20B 活跃参数的专家混合(MoE)大规模语言模型(LLM)组成。尽管其架构相对紧凑,但在广泛公共 VLM 基准和内部评估套件中,它在众多测试中表现出色,60 个公共基准中有 38 个达到了最先进的性能。此外,在以代理为中心的任务,如 GUI 控制和游戏玩法中,Seed1.5-VL 比领先的大规模多模态系统(包括 OpenAI CUA 和 Claude 3.7)表现更好。除了视觉和视频理解之外,它还在推理能力方面表现出色,特别是在视觉谜题等多模态推理挑战方面尤为有效。我们相信这些能力将推动更广泛的应用,覆盖各种任务。在本报告中,我们主要提供了在模型设计、数据构建和不同阶段的训练过程中构建 Seed1.5-VL 的全面经验回顾,希望这份报告能够激励进一步的研究。Seed1.5-VL 现已在 https://www.volcengine.com/(火山引擎模型 ID:doubao-1-5-thinking-vision-pro-250428)上提供。