摘要
大型多模态对话模型 (LMM) 在利用在线大量图像-文本数据方面取得了显著进展。然而,这些模型经常遇到巨大的领域差距,阻碍了他们在新领域进行复杂对话的能力。最近的努力旨在缓解这个问题,尽管依赖于特定领域的图像-文本数据来策划指令微调数据。然而,许多领域,如农业,缺乏这种视觉-语言数据。在这项工作中,我们提出了一种方法来构建指令微调数据,利用仅视觉数据来进行农业领域。我们利用跨多个领域的各种农业数据集,策划特定类别的信息,并使用大型语言模型 (LLM) 来构建专家微调集,从而产生一个包含 70,000 条数据的专家微调数据集,称为 AgroInstruct。随后,我们对 AgroGPT 进行了专家微调并创建了它,这是一个能够进行复杂的农业相关对话并提供有用见解的有效 LMM。我们还开发了 AgroEvals 用于评估,并将 AgroGPT 的性能与大型开源和闭源模型进行比较。AgroGPT 在识别细粒度的农业概念方面表现出色,可以充当农业专家,并为多模态农业问题提供有用的信息。代码、数据集和模型可在 https://github.com/awaisrauf/agroGPT 获取。