LLM2D
通过条件递归扩散 prompting 你的大规模 LoRAs
ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion
作者: Rana Muhammad Shahroz Khan, Dongwen Tang, Pingzhi Li, Kai Wang, Tianlong Chen
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.24354v1

摘要

arXiv:2503.24354v1 Announce Type: cross 摘要:参数生成已经作为一种新的神经网络开发范式出现,它通过直接合成高质量的模型权重,为传统神经网络训练提供了替代方案。在低秩适应(LoRA)用于不断更新(即,不断更新)的大语言模型(LLMs)的背景下,这种方法承诺能实现高效适应而不需要昂贵的重新训练。然而,现有的方法在同时实现可扩展性和可控性方面面临关键限制。在本文中,我们介绍了ORAL,一种新的**有条件循环扩散**框架,以解决这些挑战。ORAL结合了一种新颖的条件机制,整合了模型架构和文本任务规范,使得能够生成任务特定的LoRA参数,并且这些参数可以在不断更新的基础模型之间无缝转移。我们的方法可以扩展到具有数十亿参数的大语言模型,并且保持可控性。通过在五个预训练的LLMs上进行七项语言任务、四项视觉任务和三项多模态任务的广泛实验,我们证明了ORAL生成的LoRA参数达到了与vanilla训练的主管模型相当或更优的性能。