LLM2D

摘要

arXiv:2504.16128v1 类别: cross 摘要: 将深度学习应用集成到农业物联网系统中面临着平衡视觉变换器（ViTs）的高准确性和资源受限边缘设备的效率需求的严重挑战。像Swin Transformer这样的大型变换器模型在捕获全局-局部依赖关系方面表现优异，适用于植物病害分类。然而，它们的计算复杂度（34.1 GFLOPs）限制了其应用，并使其实时设备推理变得不切实际。MobileNetV3和TinyML等轻量级模型适合于设备推理，但缺乏用于精细粒度病害检测所需的空间推理能力。为了弥合这一差距，我们提出了一种混合知识蒸馏框架，该框架协同转移Swin Transformer教师模型的logit和注意力知识到MobileNetV3学生模型中。我们的方法包括引入自适应注意力对齐以解决跨架构不匹配（分辨率、通道数）问题，并且具有优化类别概率和空间焦点的双重损失函数。在lantVillage-Tomato数据集（18,160张图像）上，蒸馏后的MobileNetV3相对于Swin-L获得了92.4%的准确率，但其PC上的计算量减少了95%，物联网设备上的推理延迟也降至82%以下（PC CPU上的计算时间为23ms，智能手机CPU上的推理时间为86ms/张图像）。关键技术包括针对物联网设备的验证指标（13 MB内存，0.22 GFLOPs）和动态分辨率匹配注意力图。对比实验表明，相比独立的CNN和先前的蒸馏方法，这种方法取得了显著的效果改进，MobileNetV3基线模型的准确率提高了3.5%。更重要的是，这项工作推动了精准农业中实时、节能的作物监控，并展示了如何在边缘设备上实现与ViT相当的诊断精度。在接受后，代码和模型将被提供以便复现。