LLM2D
解读你的决策:视觉分类泛化的逻辑推理正则化
Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification
作者: Zhaorui Tan, Xi Yang, Qiufeng Wang, Anh Nguyen, Kaizhu Huang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.04492v1

摘要

视觉模型在图像分类方面表现出色,但在泛化到未见数据方面却举步维艰,例如对来自未见领域的图像进行分类或发现新的类别。本文探讨了逻辑推理与深度学习泛化在视觉分类中的关系。我们推导出了一种称为 L-Reg 的逻辑正则化方法,它将逻辑分析框架与图像分类联系起来。我们的工作表明,L-Reg 降低了模型在特征分布和分类器权重方面的复杂性。具体而言,我们揭示了 L-Reg 带来的可解释性,因为它使模型能够提取用于分类的显著特征,例如人脸到人物。理论分析和实验表明,L-Reg 在各种场景中提高了泛化能力,包括多领域泛化和广义类别发现。在图像跨越未知类别和未见领域的复杂现实世界场景中,L-Reg 一直在提高泛化能力,突出了其实际效力。