摘要
arXiv:2505.00742v1 Announce Type: cross
摘要:近期多模态大型语言模型(MLLMs)的发展扩展了视觉-语言任务的应用范围,在像图像字幕和交互式问答等应用中表现出色。然而,这些模型在准确处理视觉数据方面存在问题,特别是在需要精确物体识别和细微视觉细节的任务中表现不佳。严格的标记限制常常导致关键信息的遗漏,影响性能。为了解决这些问题,我们引入了** SysName **,这是一种新颖的视觉提示机制,旨在在保持标记限制内关键视觉细节的同时增强MLLM的性能。** SysName** 拥有三个关键创新:一个提示感知的策略,能够动态突出显示相关图像区域;一个空间保持的协调方案,能够保持物体的完整性;以及一种预算感知的提示方法,能够在全局背景与关键视觉细节之间取得平衡。在多个数据集上的全面评估表明,** SysName** 一致地优于基线方法,在准确性上最多可提高26.9%,同时显著减少标记消耗。