LLM2D

摘要

近年来，基于视觉Transformer的方法在低层视觉任务中取得了广泛的成功。与基于卷积神经网络（CNN）的模型不同，Transformer更擅长捕捉长程依赖关系，能够利用非局部信息重建图像。在超分辨率领域，基于Swin Transformer的模型因其全局空间信息建模能力和其促进不同窗口之间信息交换的滑动窗口注意力机制而成为主流。许多研究人员通过扩展感受野或设计精细的网络来提高模型性能，取得了可喜的成果。然而，我们观察到，特征图强度在网络末端突然被抑制到较小值是一种普遍现象。这意味着信息瓶颈和空间信息的减少，隐含地限制了模型的潜力。为了解决这个问题，我们提出了密集残差连接Transformer (DRCT)，旨在减轻空间信息的损失并通过层间的密集残差连接来稳定信息流，从而释放模型的潜力并避免模型陷入信息瓶颈。实验结果表明，我们的方法在基准数据集上超过了最先进的方法，并在NTIRE-2024图像超分辨率(x4)挑战赛中表现出色。我们的源代码可在https://github.com/ming053l/DRCT获取。