LLM2D
属性树引导学习 for 视觉-语言模型
Tree of Attributes Prompt Learning for Vision-Language Models
作者: Tong Ding, Wanhua Li, Zhongqi Miao, Hanspeter Pfister
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2410.11201v2

摘要

arXiv:2410.11201v2 宣告类型: replace-cross 摘要: 提示学习已被证明在使视觉语言模型适应下游任务方面非常有效。然而,现有的方法通常仅通过附加可学习的提示标记和类别名称来获得文本特征,这未能充分利用类别名称中指示的丰富语境。为了解决这个问题,我们提出了属性提示学习的树(Tree of Attributes Prompt learning,TAP),该方法首先指示LLM生成每个类别具有“概念-属性-描述”结构的树,并然后通过视觉和文本提示标记学习层次结构。与现有方法仅通过一组无结构的描述来增加类别名称不同,我们的方法本质上是从LLM中提取与类名称相关的结构化知识图谱。此外,我们的方法引入了针对显式学习相应视觉属性的文本和视觉提示,有效地充当了领域专家。另外,基于类名称生成的一般性和多样性的描述可能在特定给定的图像中错误或缺失。为了应对这种不匹配,我们进一步引入了一个视觉条件池化模块来提取实例特定的文本特征。广泛的实验结果表明,我们的方法在零样本基准到新类的泛化、跨数据集迁移以及11个不同数据集上的少量样本分类方面均优于现有最先进的方法。代码可在 https://github.com/HHenryD/TAP 获取。