摘要
arXiv:2505.01823v1 Announce Type: cross
摘要:在田间收集大规模的农作物病害图像劳动密集且耗时。生成模型(GMs)通过创建类似于真实世界图像的合成样本,提供了替代方案。然而,现有研究主要依赖基于生成对抗网络(GANs)的图像到图像的翻译,缺乏在农业领域中对计算需求的全面分析。因此,本研究探索了一种多模态文本到图像的方法,用于生成合成的农作物病害图像,并且首次提供了该领域的计算基准测试。我们针对三种Stable Diffusion(SD)变体——SDXL、SD3.5M(中型)和SD3.5L(大型)进行了训练,并使用Dreambooth和低秩适应(LoRA)微调技术来增强泛化能力。SD3.5M在任务中的性能最佳,平均内存使用为18GB,功率消耗为180W,推理任务中生成500张图像的总能耗为1.02kWh(每张图像0.002kWh)。我们的结果证明了SD3.5M能够仅从36张田间样本中在1.5小时内生成500张合成图像的能力。我们推荐使用SD3.5M进行高效的农作物病害数据生成。