LLM2D

摘要

arXiv:2505.02441v1 宣告类型: 新摘要: 准确识别农业害虫对于作物保护至关重要，但由于害虫种类内部和之间的大量方差和细微差别，这一任务仍然具有挑战性。尽管深度学习在害虫检测方面取得了进步，但现有的大多数方法仅依赖低级视觉特征，缺乏有效的多模态集成，导致精度有限且解释性差。此外，高质量的多模态农业数据集的稀缺进一步限制了该领域的进展。为了解决这些问题，我们基于广泛使用的IP102数据集构建了两个新的多模态基准-CTIP102和STIP102，并引入了多尺度跨模态融合网络(MSFNet-CPD)以增强害虫检测的鲁棒性。我们的方法通过一个超分辨率重建模块增强视觉质量，并将原始图像和重建图像同时输入网络，以提高清晰度和检测性能。为了更好地利用语义线索，我们提出了一种图像-文本融合(ITF)模块，用于联合建模视觉和文本特征，并提出了一种图像-文本转换器(ITC)，可以在多个尺度上重构细粒度细节以处理棘手的背景。此外，我们引入了一种任意组合图像增强(ACIE)策略来生成更复杂和多样化的害虫检测数据集MTIP102，从而提高模型对实际场景的泛化能力。广泛的实验表明，MSFNet-CPD在多种害虫检测基准上的一致性能优于最先进的方法。所有代码和数据集将在以下链接公开：https://github.com/Healer-ML/MSFNet-CPD。