LLM2D

摘要

arXiv:2504.12606v1 Announce Type: 交叉摘要：在本文中，我们介绍了一种名为Robo-SGG的新方法，即面向布局的归一化和恢复以实现鲁棒场景图生成。与现有的场景图生成设置相比，鲁棒场景图生成旨在对一系列受损图像进行推理，其核心挑战在于干净图像与受损图像之间的领域转移。现有的场景图生成方法由于视觉特征受损（例如噪声干扰或遮挡）而导致性能下降。为了获得鲁棒的视觉特征，我们利用了领域不变的布局信息，以增强现有方法在受损图像上的效果。具体来说，我们采用实例归一化(IN)来筛选出领域特异性特征，并通过所提出的面向布局的恢复恢复不可改变的结构特征，即通过所提出的面向布局的恢复恢复对象和对象之间以及谓词之间的位置和语义关系。此外，我们提出了一种嵌入布局的编码器（LEE），它可以在场景图框架内的现有对象和谓词编码器中增强鲁棒的位置和语义特征。请注意，我们提出的Robo-SGG模块设计为即插即用组件，可以轻松地集成到任何基础场景图生成模型中。大量的实验表明，通过将最新的方法整合到我们提出的Robo-SGG中，我们分别在VG-C数据集的PredCls、SGCls和SGDet任务上实现了5.6%、8.0%和6.5%的mR@50的相对改进，并在受损场景图生成基准（VG-C和GQA-C）上实现了新的最佳性能。我们将发布我们的源代码和模型。