摘要
我们推出了 Qwen2-VL 系列,这是对之前 Qwen-VL 模型的重大升级,它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了朴素动态分辨率机制,使模型能够动态地将不同分辨率的图像处理成不同数量的视觉标记。这种方法使模型能够生成更有效、更准确的视觉表示,与人类感知过程密切相关。该模型还集成了多模态旋转位置嵌入 (M-RoPE),有效地融合了文本、图像和视频中的位置信息。我们采用统一的范式来处理图像和视频,增强模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL 研究了大型视觉语言模型 (LVLMs) 的扩展规律。通过扩展模型大小(版本分别为 20 亿、80 亿和 720 亿参数)和训练数据量,Qwen2-VL 系列实现了极具竞争力的性能。值得注意的是,Qwen2-VL-72B 模型在各种多模态基准测试中取得了与 GPT-4o 和 Claude3.5-Sonnet 等领先模型相当的结果,优于其他通用模型。代码可在 https://github.com/QwenLM/Qwen2-VL 获取。