摘要
arXiv:2505.03005v2 宣讲类型: 替换-交叉
摘要: 我们介绍了Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS),这是一种快速将softmax注意转换器转换为线性注意解码器模型的协议,同时包括两个新的RWKV-变体架构,以及从流行的Qwen2.5开源模型转换而来的7B、32B和72B大小的模型。我们的转换过程仅需要350-700M个令牌,不到原始教师模型训练所用令牌数的0.005%。将模型转换为我们的72B线性注意模型的成本在今天的价格下低于2000美元,但在推理时仍能保持接近原始转换器的质量。这些模型在其相应大小的标准基准测试集中实现了最先进的下游性能。我们将在Apache 2.0许可证下在HuggingFace上发布所有我们的模型,除了我们的72B模型,这些模型还受Qwen许可协议的管辖。
模型可在 https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 获取
训练代码可在 https://github.com/recursal/RADLADS-paper 获取