LLM2D

摘要

arXiv:2505.00742v1 Announce Type: cross 摘要：近期多模态大型语言模型（MLLMs）的发展扩展了视觉-语言任务的应用范围，在像图像字幕和交互式问答等应用中表现出色。然而，这些模型在准确处理视觉数据方面存在问题，特别是在需要精确物体识别和细微视觉细节的任务中表现不佳。严格的标记限制常常导致关键信息的遗漏，影响性能。为了解决这些问题，我们引入了** SysName **，这是一种新颖的视觉提示机制，旨在在保持标记限制内关键视觉细节的同时增强MLLM的性能。** SysName** 拥有三个关键创新：一个提示感知的策略，能够动态突出显示相关图像区域；一个空间保持的协调方案，能够保持物体的完整性；以及一种预算感知的提示方法，能够在全局背景与关键视觉细节之间取得平衡。在多个数据集上的全面评估表明，** SysName** 一致地优于基线方法，在准确性上最多可提高26.9%，同时显著减少标记消耗。