摘要
arXiv:2505.02441v1 宣告类型: 新
摘要: 准确识别农业害虫对于作物保护至关重要,但由于害虫种类内部和之间的大量方差和细微差别,这一任务仍然具有挑战性。尽管深度学习在害虫检测方面取得了进步,但现有的大多数方法仅依赖低级视觉特征,缺乏有效的多模态集成,导致精度有限且解释性差。此外,高质量的多模态农业数据集的稀缺进一步限制了该领域的进展。为了解决这些问题,我们基于广泛使用的IP102数据集构建了两个新的多模态基准-CTIP102和STIP102,并引入了多尺度跨模态融合网络(MSFNet-CPD)以增强害虫检测的鲁棒性。我们的方法通过一个超分辨率重建模块增强视觉质量,并将原始图像和重建图像同时输入网络,以提高清晰度和检测性能。为了更好地利用语义线索,我们提出了一种图像-文本融合(ITF)模块,用于联合建模视觉和文本特征,并提出了一种图像-文本转换器(ITC),可以在多个尺度上重构细粒度细节以处理棘手的背景。此外,我们引入了一种任意组合图像增强(ACIE)策略来生成更复杂和多样化的害虫检测数据集MTIP102,从而提高模型对实际场景的泛化能力。广泛的实验表明,MSFNet-CPD在多种害虫检测基准上的一致性能优于最先进的方法。所有代码和数据集将在以下链接公开:https://github.com/Healer-ML/MSFNet-CPD。