摘要
arXiv:2502.10118v1 交叉公告类型:cross
摘要:基于最先进的视觉语言模型(VLM)的图像字幕随着时间的推移显著改进;然而,这代价是计算复杂性的增加,使得它们对于资源受限的应用如移动设备和辅助技术而言不够易于访问。相反,较小的VLM更侧重于高层次的场景描述,忽略了对图像更丰富理解有贡献的细节。在本文中,我们引入了一种无需训练的框架,通过利用相对较小的VLM(BLIP)作为骨干,明确关注不同的图像区域,从而增强字幕的多样性和信息量。我们的方法利用结构化分割产生层次表示,捕捉全局和局部分义。无需额外的模型训练,我们证明了我们的方法使较小的VLM在图像-字幕对齐、语义完整性和多样性方面能够达到与大型模型相当的性能。我们在MSCOCO、Flickr30k和Nocaps测试数据集上评估了我们的框架,分别获得了Div-2评分为0.735、0.750和0.748,同时保持了与人类标注的字幕相似的图像-字幕相关性和语义完整性。