LLM2D

摘要

大型多模态对话模型 (LMM) 在利用在线大量图像-文本数据方面取得了显著进展。然而，这些模型经常遇到巨大的领域差距，阻碍了他们在新领域进行复杂对话的能力。最近的努力旨在缓解这个问题，尽管依赖于特定领域的图像-文本数据来策划指令微调数据。然而，许多领域，如农业，缺乏这种视觉-语言数据。在这项工作中，我们提出了一种方法来构建指令微调数据，利用仅视觉数据来进行农业领域。我们利用跨多个领域的各种农业数据集，策划特定类别的信息，并使用大型语言模型 (LLM) 来构建专家微调集，从而产生一个包含 70,000 条数据的专家微调数据集，称为 AgroInstruct。随后，我们对 AgroGPT 进行了专家微调并创建了它，这是一个能够进行复杂的农业相关对话并提供有用见解的有效 LMM。我们还开发了 AgroEvals 用于评估，并将 AgroGPT 的性能与大型开源和闭源模型进行比较。AgroGPT 在识别细粒度的农业概念方面表现出色，可以充当农业专家，并为多模态农业问题提供有用的信息。代码、数据集和模型可在 https://github.com/awaisrauf/agroGPT 获取。