LLM2D

摘要

arXiv:2504.21706v1 交叉公告类型：cross 摘要：检测植物病害是现代农业的关键方面——它在保持作物健康和提高总体产量方面发挥着重要作用。传统方法尽管仍然有价值，但往往依赖于人工检查或传统的机器学习技术，这两种方法在可扩展性和准确性方面都存在局限性。近年来，视觉Transformer（ViTs）作为一种有前途的替代方案出现，提供了诸如改进的长距离依赖处理能力和更好的视觉任务可扩展性等优势。本文综述了ViTs在精准农业中的应用，涵盖了从分类到检测和分割的任务。我们首先介绍了ViTs的基本架构，并讨论了它们如何从自然语言处理（NLP）过渡到计算机视觉。讨论包括传统模型如卷积神经网络（CNNs）中的归纳偏见的概念，以及ViTs如何缓解这些偏见。我们提供了最近文献的全面综述，重点关注关键方法、数据集和性能指标。综述还对CNNs和ViTs进行了比较分析，探讨了混合模型和性能增强。讨论了技术挑战，如数据需求、计算成本和模型可解释性，以及潜在的解决方案。最后，我们概述了未来的研究方向和技术进步，这些都可能进一步支持ViTs在真实农业环境中的应用整合。我们的目标是通过这项研究为从业者和研究人员提供对ViTs如何有望变革智能和精准农业的更深刻理解。