摘要
我们介绍了NOVIC,这是一种创新的实时无约束开放词汇图像分类器,它使用自回归Transformer生成性地将分类标签输出为语言。NOVIC利用CLIP模型的丰富知识,利用嵌入空间实现从纯文本到图像的零样本迁移。传统的CLIP模型尽管能够进行开放词汇分类,但需要详尽的潜在类别标签提示,这限制了其在已知内容或上下文图像中的应用。为了解决这个问题,我们提出了一种“对象解码器”模型,该模型在一个大型的9200万目标数据集上进行训练,该数据集包含模板化的对象名词集和LLM生成的标题,以始终输出相关的对象名词。这有效地反转了CLIP文本编码器,并允许直接从图像衍生的嵌入向量生成基本上整个英语中的文本对象标签,而无需任何关于图像潜在内容的先验知识,也无需任何标签偏差。训练后的解码器在手动和网络策划的数据集以及标准图像分类基准上进行了测试,并实现了高达87.5%的细粒度免提示预测分数,考虑到该模型必须适用于任何可以想象的图像并且没有任何上下文线索,这是一个强有力的结果。