LLM2D
基于成就导向多任务损失的协作多LoRA专家统一多模态信息提取
Collaborative Multi-LoRA Experts with Achievement-based Multi-Tasks Loss for Unified Multimodal Information Extraction
作者: Li Yuan, Yi Cai, Xudong Shen, Qing Li, Qingbao Huang, Zikun Deng, Tao Wang
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2505.06303v1

摘要

arXiv:2505.06303v1 交叉类型公告 摘要:多模态信息提取(MIE)由于可以从多媒体来源中提取结构化信息而引起了关注。传统的做法是分别处理MIE任务,未能充分利用跨任务的知识共享机会。近期的方法通过使用基于指令的T5模型和视觉适配器将这些任务统一为一个生成问题,并通过全参数微调进行优化。然而,这种方法计算密集型,并且多任务微调常常面临梯度冲突,限制了性能。为解决这些挑战,我们提出了一种协作多-LoRA专家,结合成就导向的多任务损失(C-LoRAE)来处理MIE任务。C-LoRAE通过结合通用专家和特定任务专家扩展了低秩适应(LoRA)方法,通用专家从跨MIE任务中学习共享的多模态知识,特定任务专家则学习特定的指令任务特征。这种配置增强了模型在多个任务上的泛化能力,同时保持了各种指令任务的独立性,并减轻了梯度冲突。此外,我们提出了一种成就导向的多任务损失来平衡不同任务的训练进程,以解决由于MIE任务中训练样本数量不同而导致的不平衡。在三个关键MIE任务的七个基准数据集上的实验结果表明,C-LoRAE 在使用与LoRA相似数量的训练参数的情况下,实现了优于传统微调方法和LoRA方法的总体性能。