LLM2D
描述anything:详细局部图像和视频描述
Describe Anything: Detailed Localized Image and Video Captioning
作者: Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.16072v1

摘要

arXiv:2504.16072v1 声称类型:交叉 摘要:生成图像和视频中特定区域的详细准确描述仍然是视觉语言模型的基本挑战。我们引入了 Describe Anything Model(DAM)模型,这是一种用于详细局部描述(DLC)的模型。DAM 通过两个关键创新保留了局部细节和全局上下文:聚焦提示,确保对目标区域进行高分辨率编码;局部视觉主干,将精确的定位与其更广泛的上下文相结合。为了应对高质量 DLC 数据的稀缺,我们提出了一种基于半监督学习(SSL)的数据管道(DLC-SDP)。DLC-SDP 从现有的分割数据集开始,并使用 SSL 扩展到未标记的网络图像。我们引入了 DLC-Bench,这是一个基准,用于评估 DLC 而不依赖于参考描述。DAM 在涵盖关键词级别、短语级别和详细的多句局部图像和视频描述的 7 个基准测试上均创下新的状态最好。