LLM2D
通过轨迹扩散学习生成权重
Learning to Learn Weight Generation via Trajectory Diffusion
作者: Yunchuan Guan, Yu Liu, Ke Zhou, Zhiqi Shen, Serge Belongie, Jenq-Neng Hwang, Lei Li
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01117v1

摘要

arXiv:2502.01117v1 宣告类型: cross 摘要: 基于扩散的算法已成为生成权重的有前途的技术,特别是在需要频繁更新权重的多任务学习等场景中。然而,现有解决方案在跨任务转移性方面存在局限性。此外,它们仅利用最优权重作为训练样本,忽略了优化过程中其他权重的价值。为了解决这些问题,我们提出了Lt-Di,将扩散算法与元学习结合起来,为未见过的任务生成权重。此外,我们将标准的扩散算法扩展为轨迹扩散算法,以利用优化轨迹中的其他权重。轨迹扩散将整个扩散链分解为多个较短的链,从而提高训练和推理效率。我们分析了权重生成范式的收敛性质,并在不增加额外时间开销的情况下提升了收敛效率。我们的实验表明,Lt-Di在各种任务中(包括零样本学习、少量样本学习、多域泛化和大规模语言模型微调)的准确率更高,同时减少了计算开销。我们的代码在https://github.com/tuantuange/Lt-Di发布。