LLM2D

摘要

arXiv:2502.06314v2 通告类型: replace-cross 摘要: 从图像的可见部分预测被遮掩的部分是一种强大的自监督方法，用于视觉表示学习。然而，随机遮掩像素片段的常见做法会表现出某些失败模式，这会阻碍学习下游任务所需的意义深远的高层特征。我们提出了一种替代的遮掩策略，该策略在适合的数据变换上操作，而不是在原始像素上。具体来说，我们执行主成分分析，然后随机遮掩一部分组件，这些组件占数据方差的固定比例。然后，学习任务是根据可见部分重建被遮掩的组件。与像素的局部片段相比，图像的主成分包含更多的全局信息。因此，我们认为从可见组件预测被遮掩的组件涉及更多的高层特征，从而使我们的遮掩策略能够提取更有用的表示。我们的实证结果证明了这一点，显示了相比像素遮掩，组件遮掩在图像分类性能上有所提高。因此，我们的方法构成了传统遮掩图像建模方法的简单且稳健的数据驱动替代方法。