LLM2D

摘要

arXiv:2502.06314v1 类型: cross 摘要: 从图像的可见部分预测被遮罩的部分是一种强大的自监督方法，用于视觉表示学习。然而，随机遮罩像素块的常见做法表现出某些失败模式，这可能会阻止学习有意义的高层特征，这对于下游任务是必需的。我们提出了替代的遮罩策略，该策略作用于数据的适当变换，而不是作用于原始像素。具体来说，我们执行主成分分析，然后随机遮罩一部分成分，这占数据方差的固定比例。学习任务则变成从可见部分重构遮罩部分。与像素局部块相比，图像的主成分携带更多信息。因此，我们假设从可见部分预测被遮罩的部分包含更多的高层特征，使得我们的遮罩策略能够提取更有用的表示。这得到了我们的实证结果的支持，这些结果显示基于组件的遮罩而非像素遮罩在图像分类性能上有所提升。因此，我们的方法构成了一种简单且稳健的数据驱动替代传统图像遮罩建模方法。