LLM2D

摘要

arXiv:2501.11587v2 宣告类型: replace-cross 摘要：参数生成长期以来一直难以与当今的大规模视觉和语言模型的规模相匹配，限制了其更广泛的实用性。在本文中，我们介绍了大规模参数生成的循环扩散方法（RPG），一种新颖的框架，该框架能够在单个GPU上生成多达数百万的完整神经网络参数。我们的方法首先将网络参数划分为不重叠的token，每个token对应模型中的一个特定部分。然后，一种循环机制学习这些token之间的关系，生成作为扩散过程条件的原型，最终合成完整的参数。在ResNets、ConvNeXts和ViTs在ImageNet 1K和COCO以及LORAbased的LLMs上的各种架构和任务中，RPG在性能上与完全训练的网络相当，同时避免了过高的内存开销。值得注意的是，它超越了其训练集，能够生成以前未见过任务的有效参数，突显了其在动态和开放场景中的灵活性。通过克服长期存在的内存和可扩展性障碍，RPG代表了AI生成AI的重要进展，可能使在以前被认为不可行的规模上高效生成权重成为可能。