LLM2D

摘要

arXiv:2503.24354v2 宣告类型: replace-cross 摘要：参数生成已作为一种新颖的神经网络开发范式出现，在通过合成高质量模型权重直接替代传统神经网络训练方面展示了前景。在低秩适应（LoRA）用于演化（即，不断更新）的大语言模型（LLMs）的背景下，这种方法承诺在不需要昂贵的重新训练的情况下实现高效的适应。然而，现有的方法在同时实现可扩展性和可控性方面面临关键限制。在本文中，我们引入了$\texttt{ORAL}$，这是一种全新的**条件递归扩散**框架，以解决这些挑战。$\texttt{ORAL}$结合了一种新颖的条件机制，将模型架构和文本任务规范集成在一起，使生成特定任务的LoRA参数成为可能，这些参数可以无缝地在演化基础模型之间进行转移。我们的方法成功地扩展到具有数十亿参数的大语言模型，并保持了可控性。通过使用五种预训练的LLMs进行的七个语言任务、四个视觉任务和三个多模态任务的广泛实验，我们展示了$\texttt{ORAL}$生成了高质量的LoRA参数，其性能与传统的训练版本相当或更优。