摘要
arXiv:2501.15369v2 更新类型: 替换-交叉
摘要:我们提出了一种新的移动混合视觉网络家族,称为iFormer,专注于在移动应用中优化延迟和准确性。iFormer有效地结合了卷积的快速局部表示能力和自注意力的高效全局建模能力。局部交互是从将标准卷积网络,即ConvNeXt,转换设计出一种更轻量级的移动网络而来。我们引入的新移动调制注意力移除了MHA中的内存密集型操作,并采用了一种有效的调制机制来增强动态全局表示能力。我们在综合实验中证明,iFormer在各种任务中超过了现有的轻量级网络。值得注意的是,iFormer在iPhone 13上实现了ImageNet-1k的惊人Top-1准确性80.4%,延迟仅为1.10 ms,超越了在相似延迟约束下最近提出的MobileNetV4。此外,我们的方法在下游任务中显示出显著的改进,包括COCO目标检测、实例分割和ADE20k语义分割,同时仍能保持低延迟,适用于这些场景中的高分辨率输入。