LLM2D
Zoomer: 适应性图像聚焦优化用于黑盒MLLM
Zoomer: Adaptive Image Focus Optimization for Black-box MLLM
作者: Jiaxu Qian, Chendong Wang, Yifan Yang, Chaoyun Zhang, Huiqiang Jiang, Xufang Luo, Yu Kang, Qingwei Lin, Anlan Zhang, Shiqi Jiang, Ting Cao, Tianjun Mao, Suman Banerjee, Guyue Liu, Saravan Rajmohan, Dongmei Zhang, Yuqing Yang, Qi Zhang, Lili Qiu
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00742v1

摘要

arXiv:2505.00742v1 Announce Type: cross 摘要:近期多模态大型语言模型(MLLMs)的发展扩展了视觉-语言任务的应用范围,在像图像字幕和交互式问答等应用中表现出色。然而,这些模型在准确处理视觉数据方面存在问题,特别是在需要精确物体识别和细微视觉细节的任务中表现不佳。严格的标记限制常常导致关键信息的遗漏,影响性能。为了解决这些问题,我们引入了** SysName **,这是一种新颖的视觉提示机制,旨在在保持标记限制内关键视觉细节的同时增强MLLM的性能。** SysName** 拥有三个关键创新:一个提示感知的策略,能够动态突出显示相关图像区域;一个空间保持的协调方案,能够保持物体的完整性;以及一种预算感知的提示方法,能够在全局背景与关键视觉细节之间取得平衡。在多个数据集上的全面评估表明,** SysName** 一致地优于基线方法,在准确性上最多可提高26.9%,同时显著减少标记消耗。