LLM2D

摘要

arXiv:2503.24354v1 Announce Type: cross 摘要：参数生成已经作为一种新的神经网络开发范式出现，它通过直接合成高质量的模型权重，为传统神经网络训练提供了替代方案。在低秩适应（LoRA）用于不断更新（即，不断更新）的大语言模型（LLMs）的背景下，这种方法承诺能实现高效适应而不需要昂贵的重新训练。然而，现有的方法在同时实现可扩展性和可控性方面面临关键限制。在本文中，我们介绍了ORAL，一种新的**有条件循环扩散**框架，以解决这些挑战。ORAL结合了一种新颖的条件机制，整合了模型架构和文本任务规范，使得能够生成任务特定的LoRA参数，并且这些参数可以在不断更新的基础模型之间无缝转移。我们的方法可以扩展到具有数十亿参数的大语言模型，并且保持可控性。通过在五个预训练的LLMs上进行七项语言任务、四项视觉任务和三项多模态任务的广泛实验，我们证明了ORAL生成的LoRA参数达到了与vanilla训练的主管模型相当或更优的性能。