LLM2D

摘要

arXiv:2502.14620v1 交叉发布类型：language_model 摘要：本文探讨了RWKV这一新型语言模型架构的有效性，该架构以其线性注意力机制著称，在零样本设置中生成句子嵌入。我进行了逐层分析，评估了预训练RWKV模型的不同隐藏层生成的嵌入捕获的语义相似性。性能通过微软研究同义句语料库（MRPC）数据集使用斯皮尔曼相关系数进行评估，并与基于GloVe的基线进行比较。结果显示，虽然RWKV嵌入捕捉到了一些语义相关性，但在斯皮尔曼相关系数方面，它们的表现不如GloVe基线。我还分析了推理时间和GPU内存使用情况，突出了RWKV嵌入相关的计算权衡。研究结果表明，虽然RWKV在按线性比例扩展方面可能具有优势，但在语义相似性任务中的零样本句子嵌入质量仍需进一步研究和潜在的任务特定微调，以匹配或超越更简单的基线。