LLM2D

摘要

场景图生成 (SGG) 致力于预测给定图像中主体和客体之间的关系。然而，关系的长尾分布往往导致对粗粒度标签的预测偏差，这成为 SGG 中的一个重大障碍。为了解决这个问题，研究人员专注于无偏 SGG，并引入数据迁移方法将粗粒度谓词迁移到整个数据集中的细粒度谓词。然而，这些方法面临两个主要挑战：1) 它们忽略了主体-客体对所施加的固有上下文约束，导致关系迁移错误。2) 数据迁移后需要额外的再训练过程，这会产生巨大的计算成本。为了克服这些限制，我们介绍了 SGG 中第一个即插即用的单阶段数据迁移管道，称为自适应标签微调 (ALF)，它无需额外的再训练环节，同时显著增强了各种 SGG 基准方法的模型关系识别能力。具体来说，ALF 包含两个组件：自适应标签构建 (ALC) 和自适应迭代学习 (AIL)。通过在关系空间内施加谓词-上下文约束，ALC 利用基于约束的判断技术，根据模型的预测 logits 自适应地重新排序和选择候选关系，实现稳健的关系迁移。在 ALC 迁移的标签的监督下，AIL 以自回归的方式迭代微调 SGG 模型，这减轻了再训练过程带来的巨大计算成本。大量的实验表明，与典型的 SGG 方法 Motif 相比，ALF 的 mR@100 提高了 16%，而与最先进的方法 IETrans 相比，计算成本仅增加了 6%。