LLM2D

摘要

视觉模型在图像分类方面表现出色，但在泛化到未见数据方面却举步维艰，例如对来自未见领域的图像进行分类或发现新的类别。本文探讨了逻辑推理与深度学习泛化在视觉分类中的关系。我们推导出了一种称为 L-Reg 的逻辑正则化方法，它将逻辑分析框架与图像分类联系起来。我们的工作表明，L-Reg 降低了模型在特征分布和分类器权重方面的复杂性。具体而言，我们揭示了 L-Reg 带来的可解释性，因为它使模型能够提取用于分类的显著特征，例如人脸到人物。理论分析和实验表明，L-Reg 在各种场景中提高了泛化能力，包括多领域泛化和广义类别发现。在图像跨越未知类别和未见领域的复杂现实世界场景中，L-Reg 一直在提高泛化能力，突出了其实际效力。