LLM2D

摘要

大型多模态模型 (LMM) 显著地推动了各种视觉语言任务的发展。高质量训练数据的可扩展性和可用性在 LMM 的成功中起着关键作用。在食品领域，虽然像 Recipe1M 这样的综合食品数据集提供了丰富的食材和食谱信息，但它们往往缺乏足够的营养分析数据。Recipe1M+ 数据集尽管提供了一个用于营养评估的子集，但在营养信息的规模和准确性方面仍然有限。为了弥合这一差距，我们引入了 Uni-Food，这是一个统一的食品数据集，包含超过 100,000 张图像，以及各种食品标签，包括类别、成分、食谱和成分级别的营养信息。Uni-Food 旨在为食品数据分析提供更全面的方法，从而增强 LMM 在该领域的性能和能力。为了减轻 LMM 微调过程中多任务监督引起的冲突，我们引入了一种新颖的线性整流混合专家 (RoDE) 方法。RoDE 利用各种各样的专家来处理不同复杂度的任务，从而促进可训练参数的协调，即为更复杂的任务分配更多参数，反之，为更简单的任务分配更少的参数。RoDE 使用线性整流联合来改进路由器的功能，从而提高稀疏任务分配的效率。这些设计选择赋予 RoDE 特性，确保 GPU 内存效率和易于优化。我们的实验结果验证了我们提出的方法在解决食品相关多任务固有挑战方面的有效性。