LLM2D

摘要

将多个模型的参数合并已成为提高任务性能和鲁棒性的有效策略，但以往的工作受到集成创建和推理成本高昂的限制。本文利用大量可免费获取的训练模型，提出了一种无成本的模型合并方法。该方法侧重于合并模型的逐层集成，旨在保持特定任务最终层的独特性，同时统一最初的层，这些层主要与特征提取相关。这种方法确保了所有层参数的一致性，这对提高性能至关重要。此外，它还促进了知识的无缝整合，能够有效地合并来自不同数据集和任务的模型。具体而言，我们研究了它在无监督领域自适应 (UDA) 中的适用性，这是模型合并的一个未探索领域，用于语义和全景分割。实验结果表明，在不增加合并来自不同数据集 (↑2.6% mIoU) 的相同架构模型和具有共享主干 (↑6.8% mIoU) 的不同架构模型的额外成本的情况下，UDA 性能得到显著提升。此外，合并语义和全景分割模型可将 mPQ 提高 ↑7%。这些发现已在各种 UDA 策略、架构和数据集中得到验证。