LLM2D

摘要

arXiv:2505.06303v1 交叉类型公告摘要：多模态信息提取（MIE）由于可以从多媒体来源中提取结构化信息而引起了关注。传统的做法是分别处理MIE任务，未能充分利用跨任务的知识共享机会。近期的方法通过使用基于指令的T5模型和视觉适配器将这些任务统一为一个生成问题，并通过全参数微调进行优化。然而，这种方法计算密集型，并且多任务微调常常面临梯度冲突，限制了性能。为解决这些挑战，我们提出了一种协作多-LoRA专家，结合成就导向的多任务损失（C-LoRAE）来处理MIE任务。C-LoRAE通过结合通用专家和特定任务专家扩展了低秩适应（LoRA）方法，通用专家从跨MIE任务中学习共享的多模态知识，特定任务专家则学习特定的指令任务特征。这种配置增强了模型在多个任务上的泛化能力，同时保持了各种指令任务的独立性，并减轻了梯度冲突。此外，我们提出了一种成就导向的多任务损失来平衡不同任务的训练进程，以解决由于MIE任务中训练样本数量不同而导致的不平衡。在三个关键MIE任务的七个基准数据集上的实验结果表明，C-LoRAE 在使用与LoRA相似数量的训练参数的情况下，实现了优于传统微调方法和LoRA方法的总体性能。