LLM2D
Qwen2-VL:增强视觉语言模型在任意分辨率下的世界感知能力
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
作者: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.12191v2

摘要

我们推出了 Qwen2-VL 系列,这是对之前 Qwen-VL 模型的重大升级,它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了朴素动态分辨率机制,使模型能够动态地将不同分辨率的图像处理成不同数量的视觉标记。这种方法使模型能够生成更有效、更准确的视觉表示,与人类感知过程密切相关。该模型还集成了多模态旋转位置嵌入 (M-RoPE),有效地融合了文本、图像和视频中的位置信息。我们采用统一的范式来处理图像和视频,增强模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL 研究了大型视觉语言模型 (LVLMs) 的扩展规律。通过扩展模型大小(版本分别为 20 亿、80 亿和 720 亿参数)和训练数据量,Qwen2-VL 系列实现了极具竞争力的性能。值得注意的是,Qwen2-VL-72B 模型在各种多模态基准测试中取得了与 GPT-4o 和 Claude3.5-Sonnet 等领先模型相当的结果,优于其他通用模型。代码可在 https://github.com/QwenLM/Qwen2-VL 获取。