LLM2D
通过注意力和逻辑门炼化进行的混合知识转移:面向农业IoT设备上的视觉系统
Hybrid Knowledge Transfer through Attention and Logit Distillation for On-Device Vision Systems in Agricultural IoT
作者: Stanley Mugisha, Rashid Kisitu, Florence Tushabe
发布日期: 4/24/2025
arXiv ID: oai:arXiv.org:2504.16128v1

摘要

arXiv:2504.16128v1 类别: cross 摘要: 将深度学习应用集成到农业物联网系统中面临着平衡视觉变换器(ViTs)的高准确性和资源受限边缘设备的效率需求的严重挑战。像Swin Transformer这样的大型变换器模型在捕获全局-局部依赖关系方面表现优异,适用于植物病害分类。然而,它们的计算复杂度(34.1 GFLOPs)限制了其应用,并使其实时设备推理变得不切实际。MobileNetV3和TinyML等轻量级模型适合于设备推理,但缺乏用于精细粒度病害检测所需的空间推理能力。为了弥合这一差距,我们提出了一种混合知识蒸馏框架,该框架协同转移Swin Transformer教师模型的logit和注意力知识到MobileNetV3学生模型中。我们的方法包括引入自适应注意力对齐以解决跨架构不匹配(分辨率、通道数)问题,并且具有优化类别概率和空间焦点的双重损失函数。在lantVillage-Tomato数据集(18,160张图像)上,蒸馏后的MobileNetV3相对于Swin-L获得了92.4%的准确率,但其PC上的计算量减少了95%,物联网设备上的推理延迟也降至82%以下(PC CPU上的计算时间为23ms,智能手机CPU上的推理时间为86ms/张图像)。关键技术包括针对物联网设备的验证指标(13 MB内存,0.22 GFLOPs)和动态分辨率匹配注意力图。对比实验表明,相比独立的CNN和先前的蒸馏方法,这种方法取得了显著的效果改进,MobileNetV3基线模型的准确率提高了3.5%。更重要的是,这项工作推动了精准农业中实时、节能的作物监控,并展示了如何在边缘设备上实现与ViT相当的诊断精度。在接受后,代码和模型将被提供以便复现。