LLM2D
PhytoSynth:利用多模态生成模型进行作物疾病数据生成,并采用新型基准测试和提示工程方法
PhytoSynth: Leveraging Multi-modal Generative Models for Crop Disease Data Generation with Novel Benchmarking and Prompt Engineering Approach
作者: Nitin Rai, Arnold W. Schumann, Nathan Boyd
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01823v1

摘要

arXiv:2505.01823v1 Announce Type: cross 摘要:在田间收集大规模的农作物病害图像劳动密集且耗时。生成模型(GMs)通过创建类似于真实世界图像的合成样本,提供了替代方案。然而,现有研究主要依赖基于生成对抗网络(GANs)的图像到图像的翻译,缺乏在农业领域中对计算需求的全面分析。因此,本研究探索了一种多模态文本到图像的方法,用于生成合成的农作物病害图像,并且首次提供了该领域的计算基准测试。我们针对三种Stable Diffusion(SD)变体——SDXL、SD3.5M(中型)和SD3.5L(大型)进行了训练,并使用Dreambooth和低秩适应(LoRA)微调技术来增强泛化能力。SD3.5M在任务中的性能最佳,平均内存使用为18GB,功率消耗为180W,推理任务中生成500张图像的总能耗为1.02kWh(每张图像0.002kWh)。我们的结果证明了SD3.5M能够仅从36张田间样本中在1.5小时内生成500张合成图像的能力。我们推荐使用SD3.5M进行高效的农作物病害数据生成。