LLM2D

摘要

arXiv:2505.01823v1 Announce Type: cross 摘要：在田间收集大规模的农作物病害图像劳动密集且耗时。生成模型（GMs）通过创建类似于真实世界图像的合成样本，提供了替代方案。然而，现有研究主要依赖基于生成对抗网络（GANs）的图像到图像的翻译，缺乏在农业领域中对计算需求的全面分析。因此，本研究探索了一种多模态文本到图像的方法，用于生成合成的农作物病害图像，并且首次提供了该领域的计算基准测试。我们针对三种Stable Diffusion（SD）变体——SDXL、SD3.5M（中型）和SD3.5L（大型）进行了训练，并使用Dreambooth和低秩适应（LoRA）微调技术来增强泛化能力。SD3.5M在任务中的性能最佳，平均内存使用为18GB，功率消耗为180W，推理任务中生成500张图像的总能耗为1.02kWh（每张图像0.002kWh）。我们的结果证明了SD3.5M能够仅从36张田间样本中在1.5小时内生成500张合成图像的能力。我们推荐使用SD3.5M进行高效的农作物病害数据生成。